Qual é a melhor maneira de rastejar/rascunhar fóruns que têm múltiplos tópicos com mais de 100 páginas?
Até agora na terceira tentativa, deixe-me oferecer algumas entradas.
Você precisa de duas tabelas de banco de dados. Uma para URL:s e outra para os posts.
Colher toda e qualquer URL:s da página raspada que leva aos threads, fóruns e subfóruns. Armazene aqueles na tabela de URL com um carimbo da hora.
Seu raspador deve selecionar as linhas desta tabela, ordenadas pelo carimbo da hora em ordem ascendente. A partir desses URL:s, colete e armazene quaisquer novos links que você encontre levando a threads, fóruns ou subforums. Guarde as mensagens na sua outra tabela.
A maioria dos fóruns tem alguma listagem em novas páginas ou novos tópicos. Você precisa raspar esta página a cada minuto e coletar URL:s a partir dela. Se a URL já estiver presente na sua tabela de url, basta reinicializar o carimbo da hora. Dessa forma você vai manter o controle de quaisquer novas mensagens.
Você vai acabar com milhares de url:s a serem verificadas, então você pode querer rodar vários raspadores de uma só vez. Basta selecionar 10000 novos url:s e embaralhar o array para que seus raspadores não façam o mesmo trabalho no mesmo url. Selecione outro 10000 url:s quando você tiver processado 100, caso contrário eles farão o mesmo url mais cedo ou mais tarde de qualquer forma.
Lembre-se também de atualizar o timestamp do url quando você tiver processado o url :)
Artigos semelhantes
- Porque é que o Kindle mostra mais páginas do que é e salta o número das páginas?
- Qual é a diferença entre o passaporte de 36 páginas e 60 páginas na Índia?
- Porque é que a versão Kindle de Harry Potter e os Salões da Morte tem apenas 316 páginas, mas as outras versões têm mais de 700?
- Qual é a melhor maneira de comercializar seus livros e páginas coloridas para adultos?