Como funciona a tradução do Google? Eles têm base de dados para todas as palavras de uma determinada língua?
As de finais de 2016, a tradução automática utilizada pelo Google Translate tem visto grandes avanços recentes, possibilitados pelo Deep Learning. Em setembro de 2016 o Google anunciou o Google Neural Machine Translation system (GNMT), um novo sistema de tradução automática baseado em Redes Neurais Artificiais e Deep Learning.
No novo sistema, o Google usou Redes Neurais Recorrentes (RNN), que são bem conhecidas por terem um bom desempenho em seqüências (de palavras e frases). Ao utilizar esta abordagem, o Google tem sido capaz de melhorar continuamente a qualidade das traduções, permitindo que seus sistemas levem em consideração não apenas as palavras e frases de origem, mas também contextos mais amplos de onde elas aparecem nas frases, e quais são as outras palavras e frases ao seu redor.
Estas questões são conhecidas há muito tempo como sendo a principal diferença entre as técnicas de tradução humana e as simples técnicas de tradução automática.
Pouco depois, em Novembro de 2016, o Google anunciou a Tradução Zero-Shot com o Sistema de Tradução Máquina Multilingue do Google, o que evita a tradução incómoda de pares de línguas individuais, traduzindo frases de entrada para representações vectoriais distribuídas dos seus supostos significados independentemente da(s) língua(s) em questão.
Por exemplo, eles descrevem no relatório usando pares japonês-inglês e coreano-inglês para treinar o seu sistema multilingue. Então eles são capazes de pedir ao sistema por traduções de pares que ele não tenha visto antes, ou seja, coreano-japonês no exemplo acima. Surpreendentemente, o sistema também produziu traduções razoáveis para tais pares.
Este avanço é realmente grande, pois demonstra claramente uma melhoria na tentativa de alcançar o objetivo final de fazer com que os computadores entendam a semântica e os significados, ao contrário de simples mapeamentos sintáticos de palavras e frases entre pares de línguas individuais.
Além dos RNNs, este esforço tem sido claramente inspirado por avanços recentes em representações vetoriais distribuídas de palavras (e frases), chamadas de incorporações de palavras. Mikolov et al descrevem em seu incrível trabalho Word2Vec, um sistema para mapear palavras para vetores em um espaço real multidimensional de relativamente baixa dimensionalidade (poucas centenas).
Eles mostram que incrustações de palavras com significados similares estão próximas no espaço alvo, o que é um tremendo avanço, já que abordagens sintáticas (simples) produzem mapeamentos extremamente diferentes, mesmo em pequenas diferenças sintáticas, não importando significados similares, como sinônimos. Há também um grande benefício adicional de representações compactas, já que vetores de várias centenas de números reais são muito mais fáceis de lidar do que codificações simples, onde as dimensões atingem milhões.
Vetores de incorporação de palavras de baixa dimensionalidade são assim vistos como representações de significados de frases, que é no que a tradução multilíngue Zero-Shot do Google se baseia. Seu sistema está criando embeddings que são independentes da língua, o que é realmente incrível, se você pensar sobre isso.
Word2vec não é realmente um sistema de aprendizagem profunda, pois não é baseado em redes neurais artificiais multi-camadas. Seu grande poder vem dos fatos de que é um método não supervisionado que não requer dados de treinamento, escalona extremamente bem para (muitos) bilhões de palavras e é capaz de preservar semelhanças semânticas em distâncias em espaços vetoriais compactos de destino.
Os esforços de tradução automática do Google são um grande exemplo de incríveis avanços no Aprendizado Profundo, que se referem não apenas à qualidade das traduções, mas também à aproximação do Santo Graal dos computadores que entendem semântica e significados.
Artigos semelhantes
- Qual é a diferença entre uma base de dados tradicional e uma base de dados moderna?
- A Bíblia da Nova Tradução Viva é realmente uma tradução ou uma paráfrase?
- Qual é a melhor tradução da Bíblia para estudar? Qual é a melhor tradução da Bíblia para estudar?
- E se houvesse um aplicativo para tradução automática da língua enquanto falava através do discador telefônico?