Como funciona o Google Duplex?
A resposta curta: comandos de voz, reconhecimento automático de voz e informações de contexto de conversação é alimentada em uma rede neural recorrente e transformada em saída de voz através de um gerador texto-para-fala.
Okay, então o que isso significa?
Comandos de voz e ASR já existem há algum tempo com produtos Google e a maioria das pessoas está habituada a esse tipo de coisas neste momento (Alexa, Siri, Cortana... na verdade, alguém já falou com Cortana?), por isso não vou falar muito sobre isso.
Informação contextual provavelmente começa com um forte anterior sobre o que é a conversa. O duplex atualmente só funciona em cenários muito específicos e tem sido enfatizado que não é um agente de conversação geral. Isso realmente ajuda. O espaço de busca pelo que podemos falar se eu estiver ligando sobre um corte de cabelo é muito menor do que os tipos de coisas que eu cobriria em uma conversa em uma semana normal. É também bastante claro que o Duplex mantém um registro de onde está na conversa - como cumprimentar a pessoa, fazer um pedido, dar esclarecimentos, confirmar informações, etc. Isso também significa rastrear os estados do parceiro da conversa - por exemplo, quão confusos eles estão? A demonstração de reserva do restaurante e os comentários associados mostram o rastreamento do estado humano, permitindo que o Duplex dê um empurrão na conversa de volta ao território familiar (segunda metade do vídeo).
Rede neural atual é um tipo de rede neural que é popular para lidar com informações temporais, pois alimenta parte da saída de volta às partes anteriores da rede. Esta estrutura permite que ela exiba "memória" de eventos anteriores e ajuste sua saída com base na seqüência de entradas em vez de apenas uma entrada única. Esta rede foi treinada em um grande conjunto de dados de chamadas que eram relevantes para a tarefa específica, embora não esteja claro de onde este corpus veio (*está no tablet Android sentado na minha mesa*). Esta parte parece ser também responsável por gerar o texto da resposta do Duplex ao human.
Text-to-speech também já existe há algum tempo, mas esta parece muito diferente daquilo a que estamos habituados! É também provavelmente o elemento mais assustador de todo o produto, porque a fala é tão natural que seria muito difícil distinguir entre esta saída e um humano real. Na verdade, eu não fiquei tão surpreso com este pouco da demo, porque o DeepMind (de propriedade do Google) lançou um post há um tempo atrás sobre a WaveNet, uma rede neural convolucional para geração de áudio que foi treinada em dados de áudio brutos (estrutura muito grosseira mostrada abaixo). Eu recomendaria olhar para o post. As amostras de áudio são incríveis. Não sei dizer a diferença entre os samples em inglês da WaveNet e um humano (não tenho experiência suficiente com mandarim para julgar esses samples, mas imagino que seja similar).
Eu imagino que haja também um monte de outros pequenos truques envolvidos, mas essa é a idéia geral. Muito impressionante. Um pouco assustador. Esperemos que seja útil? Com o ritmo a que estas coisas estão se desenvolvendo, acho que teremos estudantes universitários fazendo versões muito mais imaturas destes tipos de sistemas em poucos anos (e talvez até alguns úteis).
(Veja Google Duplex: Um sistema de IA para a realização de tarefas do mundo real por telefone e WaveNet: Um Modelo Generativo para Áudio Bruto | DeepMind para a informação da fonte.)
Artigos semelhantes
- Devo usar Half Duplex ou Full Duplex para o meu WiFi, e qual é a diferença?
- Qual é a melhor velocidade & duplex para ethernet para PC? Qual é a diferença entre 100 mbps e 10 mbps half e full duplex?
- Porque é que o WiFi não funciona em modo full duplex de transmissão?
- Qual é a sua opinião sobre o Google Duplex?