Como criar o meu próprio assistente digital como Siri, Google Now, ou Cortana
Pode aprender mais com este artigo "Desenvolvendo um assistente pessoal semelhante ao Google Assistant e Siri"
Antes de começar a desenvolver um assistente pessoal personalizado, deve verificar se você ou a sua equipa de desenvolvimento têm as competências necessárias. Este tipo de aplicativo usa algumas das tecnologias mais inovadoras de hoje.
Que características básicas um aplicativo de assistente pessoal móvel deve ter?
Conversão da fala para texto e em reverso
Para ser convertido em texto, a voz pode ser entregue na forma de um stream ou um arquivo de áudio. CMU Sphinx é uma ótima e reconhecida ferramenta que fornece a você fazer isso.
Como para conversão de texto ou imagens para fala, é realmente útil no caso dos usuários desejarem descobrir a pronúncia correta de uma palavra.
Etiquetagem e tomada de decisão de Smart
Esta funcionalidade permite que um aplicativo entenda a consulta do usuário e forneça resultados relevantes. Por exemplo, um usuário faz uma pergunta a uma aplicação assistente pessoal: "Quais são os melhores hotéis de Nova Iorque?". Um aplicativo de assistente pessoal deve encontrá-los e sugerir aqueles que são adaptados às preferências do usuário. Você pode usar a API de alquimia para integrar tagging inteligente e tomada de decisão no seu aplicativo.
Reconhecimento de imagens
Embora este recurso seja opcional, ele é muito útil se você planeja implementar o reconhecimento de voz multimodal. Familiarize-se com a biblioteca OpenCV se estiver planejando fazer isso.
Redução de ruído
Os sons ambientais são capazes de tornar uma fala pouco clara e assim distorcer a consulta de busca dos usuários. A implementação deste recurso permite diminuir ou remover totalmente os ruídos ambientais que garantem um reconhecimento preciso da fala.
Reconhecimento biométrico da fala
A biometria da fala permite detectar a pessoa por uma voz e decidir se deve ou não responder. Isto evitará possíveis consultas maliciosas feitas por terceiros. Também pode prevenir tais incidentes cômicos como o que ocorreu com o Amazon Alexa quando ele mudou a temperatura em um apartamento por causa de ouvir uma diretiva apropriada do aparelho de TV ligado.
Compressão de áudio
Compressão de áudio permite que o lado cliente de um aplicativo reduza os dados de fala em tamanho e os envie em tal estado para o servidor. Com a ajuda da redução do tamanho da fala, o desempenho de um aplicativo aumenta. Isso resulta na diminuição da chance de encontrar atrasos indesejados. Para integrar a compressão de áudio considere utilizar o padrão G.711.
Interface de voz
É um feedback que os usuários podem ouvir ou ver como uma resposta à sua consulta. A interface de voz deve ter uma variedade de opções personalizáveis. Elas podem incluir a escolha de um modelo de voz e o modo de falar, a definição da velocidade da fala, etc. A representação visual da interface de voz também afeta a experiência do usuário, mas é um aspecto opcional que pode ser pulado.
É importante ressaltar que um servidor ou um dispositivo móvel do usuário pode processar dados de voz e texto. Você pode verificar uma imagem abaixo que mostra o processamento de dados que inclui o servidor partiсipation.
Como os dados são processados nos aplicativos do assistente de voz móvel