Que pessoa é a voz por detrás do Google Translate?
Não é obviamente uma sequência de gravações (uma para cada palavra possível), uma vez que o TTS do Google Translate também pode pronunciar palavras que não são palavras.
Sem conhecer o funcionamento interno, imagino que o fizeram de forma semelhante à forma como a voz do Siri (software) foi criada: Voice of Siri Revele-se - And Why the iPhone "Assistant" Sounds So Snippy | TIME.com
Isto é, eles gravam um humano a falar milhares e milhares de frases cuidadosamente escolhidas. Estas frases são escolhidas para conter todos os sons do inglês (ou da língua TTS apropriada); não só por si, mas, tanto quanto possível, em todas as combinações (assim um /k/ não só por si, mas também antes de um /t/ como em 'act', antes de um /i/ como em 'key', etc. etc.).
Então, cortam essas frases em pequenos pedaços constituídos por vários sons.
Então, para recriar a fala, colam esses pequenos pedaços de tal forma que se fundem uns com os outros. Então 'sonhador' pode vir de um /dri/ snippet mais um /rim/ um mais um /imi/ um. A sobreposição entre os trechos faz a palavra inteira soar mais natural do que se você apenas costurasse /d/ /r/ /i/ /m/ /i/ together.