Casa > Q > Qual É A Melhor Maneira De Rastejar/Rascunhar Fóruns Que Têm Múltiplos Tópicos Com Mais De 100 Páginas?

Qual é a melhor maneira de rastejar/rascunhar fóruns que têm múltiplos tópicos com mais de 100 páginas?

Até agora na terceira tentativa, deixe-me oferecer algumas entradas.

Você precisa de duas tabelas de banco de dados. Uma para URL:s e outra para os posts.

Colher toda e qualquer URL:s da página raspada que leva aos threads, fóruns e subfóruns. Armazene aqueles na tabela de URL com um carimbo da hora.

Seu raspador deve selecionar as linhas desta tabela, ordenadas pelo carimbo da hora em ordem ascendente. A partir desses URL:s, colete e armazene quaisquer novos links que você encontre levando a threads, fóruns ou subforums. Guarde as mensagens na sua outra tabela.

A maioria dos fóruns tem alguma listagem em novas páginas ou novos tópicos. Você precisa raspar esta página a cada minuto e coletar URL:s a partir dela. Se a URL já estiver presente na sua tabela de url, basta reinicializar o carimbo da hora. Dessa forma você vai manter o controle de quaisquer novas mensagens.

Você vai acabar com milhares de url:s a serem verificadas, então você pode querer rodar vários raspadores de uma só vez. Basta selecionar 10000 novos url:s e embaralhar o array para que seus raspadores não façam o mesmo trabalho no mesmo url. Selecione outro 10000 url:s quando você tiver processado 100, caso contrário eles farão o mesmo url mais cedo ou mais tarde de qualquer forma.

Lembre-se também de atualizar o timestamp do url quando você tiver processado o url :)

De Ranie Ordoyne

Quais são os exemplos de produtos ruins que foram muito bem comercializados? :: O PS5 vai ser bom?