Eu gostaria de obter dados sobre os preços atuais das ações em uma folha do Google em um Mac. Qual é a maneira mais fácil de fazer isto?
Depende do html na página que você quer raspar.
Algumas estão marcadas para que seja fácil obter o que você precisa com declarações fáceis de localizar, de substrato ou de 'explodir' para obter os tokens que você quer do html. Se os dados são apresentados em uma tabela, por exemplo, é fácil obter cada linha cortando tudo antes e depois da tabela e depois explodindo em '
' para obter os dados.Nunca fiz isso em um ambiente desktop, sempre fiz isso em um servidor onde as páginas a serem raspadas podem ser obtidas facilmente com uma declaração como 'fopen' usada em uma página web. Se o material a ser raspado está atrás de uma senha, às vezes é fácil escrever uma caixa de diálogo que fará o login e navegará até a página.
Outras vezes, a página foi produzida para parecer bem aos olhos, mas desafie a análise. Ou, algum JavaScript estará lá para tornar mais difícil passar pelo log in.
Eu tive alunos que fizeram a raspagem de sites com log in acessando o site em seu computador, chegando à página a ser raspada, usando Ctrl-u ou View Source ou usando o depurador para ver coisas puxadas com AJAX, depois copiar/colar manualmente o fonte em um arquivo e analisar isso com Python ou Visual Studio.
Há sempre alguma forma de automatizar estas coisas, mas pode ser muito desafiante descobri-las se o site foi escrito para desafiar o scraping...
Artigos semelhantes
- Como encontrar jogos com tendências atuais e palavras-chave atuais para jogos móveis (tanto Playstore como iOS)
- Onde posso obter dados gratuitos sobre opções intradiárias e preços de ações?
- Como criar uma cópia da Folha de Cálculo do Google que é automaticamente actualizada quando a folha original é actualizada
- Onde posso obter APIs de dados de ações gratuitas para os mercados de ações indianos?