Como é que o Google utiliza a aprendizagem de máquinas?
O Google sempre usou a aprendizagem automática como um suplemento chave para a classificação, que tem sido a parte chave do que o Google faz. O avanço inicial na classificação do PageRank foi o que começou tudo, mas foi rapidamente melhorado e substituído por outros chamados sinais de classificação, que são todos heurísticos, mantidos como segredos comerciais pelas razões óbvias de evitar a manipulação em massa, para não mencionar as mais oportunistas, como a frustração da competição.
Mas a classificação foi sempre a chave para produzir resultados de qualidade superior. O Machine Learning entrou na imagem como uma forma muito poderosa de introduzir o feedback do utilizador, que o Google tinha em enormes quantidades devido aos cliques de rastreio nos resultados. Tem sido usada como uma técnica de filtragem essencial, para melhorar e melhorar os resultados algorítmicos, incluindo tanto o PageRank como outros sinais de classificação.
Mas pensamos que o Machine Learning tem sido usado exclusivamente como uma técnica de filtragem, para retirar dos resultados algorítmicos o que os utilizadores pensam ser o melhor, usando os seus cliques. Tenha em mente que o Google tem uma enorme quantidade de cliques registados, agora em muitos triliões.
Mas mesmo o melhor filtro não tem qualquer utilidade se não houver um gerador correspondente, ou seja, algo que forneça o que filtrar. Esse gerador sempre foi a Web, visto como um oceano interminável de incrível conteúdo, juntamente com todo o outro ruído e disparates que o acompanham. Mas esse oceano está secando há vários anos, em 2020, e aí reside um problema existencial para o Google.
Uma resposta clara é confiar no enorme número de páginas antigas arquivadas, de mais de 60 trilhões, a partir de 2020. Mas isso não se coaduna bem com a estratégia que o Google vem promovendo há muitos anos, de sempre empurrar o conteúdo mais fresco. Uma razão oportunista para tal estratégia foi continuar reforçando a impressão de uma infinita quantidade de novos conteúdos que nunca seca e que só o Google é capaz de processar e apresentar ao público.
ML, uma vez que uma técnica de filtragem tem sido incapaz de fornecer soluções para esta questão chave. Em termos mais simples, é um problema do tipo "garbage-in-garbage-out" (GIGO). Nenhuma quantidade de aprendizagem da máquina pode produzir gemas fora das montanhas de lixo.
PageRank é um algoritmo incrível, baseado na existência de links humanos, e boa vontade dos usuários e webmasters para criá-los para melhorar a Web. Essa boa vontade está infelizmente perto de ser esgotada.
O que será necessário é um algoritmo para encontrar automaticamente gráficos e estrutura baseada em gráficos em vastos oceanos de dados aparentemente não estruturados, que nós temos e ainda continuamos a ter. O ML como sabemos não tem parte nesse processo neste momento. Por outro lado, a matemática dele desempenhará um papel importante, mas em algoritmos automatizados completamente novos não confiando apenas em ligações humanas.