Qual é o melhor software de conversão de texto em fala em 2020?
O melhor software text-to-speech consome uma enorme quantidade de poder computacional.Pelo que me parece, cada 'serviço' é apenas uma interface extravagante sobre o Watson da IBM, Google, Microsoft, Apple's Siri, Amazon's Alexa.
Imagino que um sistema possa gostar da sua voz e outro possa ter dificuldades com o seu ruído de fundo. É realmente difícil dizer qual será o melhor.
Cada um tem seus próprios padrões e peculiaridades - como os transcricionistas fazem. Todos nós deixamos nossas assinaturas no texto, mesmo que os nomes e metadados tenham mudado.
Talvez haja outros, mas esses caras têm o capital para pagar as pessoas inteligentes e os servidores para fazer isso acontecer.
Então, quanto ao melhor software text-to-speech, ele realmente depende da formatação e do que você pretende fazer.
Dependente do seu ponto de dor, há um bom software para edição de vídeo, edição de texto, arquivamento, etc. - mas todos eles provavelmente estão usando uma licença de software dos Quatro Grandes para automatizar as transcrições... e se não estiverem, provavelmente não são muito precisos e não vão economizar seu tempo.
Depende da sua intenção e uso e de quão bem o sistema pode entendê-lo.
Também, esteja ciente de que os humanos ainda são melhores que os computadores na transcrição.
Não há duas frases iguais.
Recentemente, eu executei uma varredura em mais de 100.000 palavras de transcrições (macros são tão legais!) - falado pela mesma pessoa - muito raramente ele colocou as mesmas duas palavras uma ao lado da outra.
P>Peguei a primeira letra de cada palavra e coloquei-a numa folha de cálculo, e depois formatei condicionalmente alguma cor para cada letra. (Acho que não as fiz todas aqui. Muitas letras são deixadas como brancas. Eu só achei bonito.)
Como você pode ver, muito, muito poucos padrões duplicados.
Estas são apenas as primeiras letras da palavra. Eu não consegui localizar nenhum padrão com significado.
Ao lado do "e do" e "costumava" e coisas assim, estamos todos muito unidos com a vida, o caos e a aleatoriedade que é difícil para o computador entender.
Os nossos cérebros são esquisitos quando se trata de comunicação, não são? É preciso um humano para entender e empatizar com um humano.
Tentei usar esses serviços, imaginando/esperando que eles melhoraram o suficiente para me poupar tempo.
Até agora, eles não o fizeram. Tem sido um pouco decepcionante.
Mas eu consigo manter o meu emprego.
Humans ainda dominam, o que eu acho que é uma coisa boa?