Que idiomas o Google Translate é o pior na tradução?
Embora os algoritmos estejam melhorando, uma área que tem sido áspera por muito tempo e ainda continua a ser difícil é a estrutura palavra vs. frase.
Traduzir do Swahili para o inglês é melhor do que traduzir do inglês para o swahili, porque o Google Translate não parece estar configurado corretamente para esperar que muitas palavras em inglês sejam comprimidas em palavras longas em swahili. Esse é apenas um par de idiomas que eu mesmo usei, mas se aplica a outros. Parece ser melhor agora do que era há alguns anos atrás, mas ainda está um pouco atrasado. O Google Translate está ficando ótimo (relativamente falando) em lidar com a sintaxe (estrutura das frases), mas a estrutura das palavras ainda está se recuperando. É muito interessante que o problema é assimétrico para o Swahili.
É também parecido com a razão pela qual a máquina de leitura traduzir tailandês é muitas vezes hilariante e sem sentido: é consistentemente a língua para a qual eu não tenho a menor idéia do que é o texto original, mesmo em termos gerais! Daniel Ross' resposta a Why are Google Translate and other translators so bad at translating Thai? No caso do tailandês não é porque as palavras sejam longas, exatamente, mas porque os espaços não estão escritos, então tudo parece uma palavra longa para o Google Translate, e aparece como uma algaraviada quando adivinha onde os limites da palavra podem estar. (Isso na verdade é muito pior no Facebook, que eu acredito usando uma versão da tradução do Bing, e sempre que meus amigos tailandeses escrevem em tailandês, o que eu não entendo, eu adoro ler qualquer "tradução" que sugere porque tem um significado - ontem meu amigo aparentemente escreveu "Chris está no abraço!" se você acredita na tradução. E quando um dos meus amigos tailandeses escreve poesia tailandesa? Digamos que algo se perdeu na tradução!)
A boa notícia é que como essas coisas estão melhorando um pouco ultimamente (costumavam ser categoricamente ruins), isso sugere que o problema pode ser resolvido estatisticamente se o modelo agora for permitido fazer associações complexas entre traduções de uma a muitas palavras. Em suma, o algoritmo agora está essencialmente a aprender a redesenhar a si mesmo - não só as correspondências estatísticas, mas também os melhores tipos de correspondências estatísticas a utilizar. Este é o próximo passo nas funções de IA do Google Translate, e é interessante vê-lo evoluir.