O Google vai lançar a funcionalidade Live Caption para cada telefone Android 10, ou é apenas para dispositivos Pixel?
Live caption foi lançado pela primeira vez em dispositivos Pixel e o Samsung Galaxy S20 em linha. Mas esta funcionalidade está, de facto, integrada no próprio Android. Agora, isto significaria que o 'Live caption' acabaria por chegar à maioria dos telefones lá fora, incluindo o que está a usar!
O que é 'Live caption'?
Considere as seguintes situações:
>ul><Você'está num comboio com pessoas à sua volta e não'não tem os seus auscultadores consigo.You're assistindo um vídeo que está em uma linguagem que você não't entende!>li>li>You're apenas verificando algo discreto!Live caption permite que você veja legendas ou legendas em tempo real para seus vídeos, podcasts ou mesmo notas de voz sem enviar nenhuma informação para o Google! Esta funcionalidade é útil em qualquer dos cenários que mencionei anteriormente e também é bastante útil para os deficientes auditivos, o que a torna uma funcionalidade fantástica. Num futuro próximo, 'live caption' também pode traduzir legendas que são geradas para qualquer idioma em tempo real, o que o ajudaria a ver vídeos, independentemente de saber ou não o idioma.
Como usar 'Live caption'?
- Pressione o botão de volume para cima ou para baixo.
- Quando o indicador de volume aparecer no ecrã, haverá um botão abaixo dele com o ícone de legendas que pode ser pressionado para ligá-lo.
- Se você não encontra o botão abaixo do indicador de volume, você pode ir para as configurações e depois ir para acessibilidade e depois para ' live caption'.
- Você pode encontrar aqui o botão para ligar os live captions juntamente com algumas outras opções como 'language',, 'high profanity' e assim por diante.
Se você não'não encontre a opção live captions nas configurações, infelizmente, ela ainda não está disponível para o seu telefone. Mas então, it'será lançado em breve para a maioria dos telefones ou você pode instalar uma ROM personalizada para usá-lo.
Como funciona o 'Live caption'?
Captioning é uma subcategoria de 'processamento de linguagem natural' que é o ramo da ciência que lida com a interação entre um humano e um computador. Veja, nós humanos viemos a este mundo com a capacidade inata de interagir com outros seres humanos porque nós'somos sencientes. Let's supõe que precisamos de interagir com os outros escrevendo mensagens e passando-as a eles! Isso seria uma verdadeira dor e essa's como nós interagimos com os computadores a partir de agora! É muito mais fácil falar com eles.
Então o processamento da linguagem natural tenta resolver este problema usando três categorias amplas.
- 'reconhecimento da fala' e 'fala para texto' lidar com a compreensão da palavra falada e convertê-la em texto. A partir de hoje, o reconhecimento da fala funciona com base na cadeia oculta de Markov, que pega na forma de onda de áudio bruto que existe no vídeo ou podcast, depois corta-a em pequenos pedaços e tenta identificar os 'Phonemes' em cada um desses pedaços. 'Phonemes' são o som elementar de qualquer língua que pode ser combinado para criar qualquer palavra nessa língua. Por exemplo, diz-se que a língua inglesa contém cerca de 40 'Phonemes'. O algoritmo então compara as combinações de fonemas cortados com as palavras que estão na sua biblioteca para convertê-las em texto. Por exemplo, se eu disser a palavra "STUFF", a placa de som converterá o sinal analógico do microfone em um sinal digital, e depois o cortará em pedaços menores para encontrar os 'Phonemes' que neste caso são "ST", "UH" e "FF". Então o algoritmo procura quatro palavras que tenham estes três fonemas marcados.
- 'Análise de texto' é a parte onde o computador tenta entender o texto que está sendo gerado. Esta fase é bastante importante pois interpretar idiomas sem entender o contexto pode ser muito complicado. Considere as frases "I know it" e "I said no to it". Estas frases têm ambas o som "não", mas na primeira frase é "K-N-O-W" e na segunda é "N-O", que têm significados drasticamente diferentes Para compreender a semântica, o algoritmo usa 'N-grama' técnica, que é basicamente olhar para as palavras adjacentes para qualquer palavra para prever essa palavra em particular. Por exemplo, let's consideram uma frase que tem o som "chuva". Se essa frase contém outras palavras como 'trovão' e 'relâmpago' o som "chuva" é provavelmente o nosso "R-A-I-N", enquanto que se essa frase contém outras palavras como 'cavalo' e 'montar', o "rédea" dessa frase é provavelmente "R-E-I-N". É por isso que você pode ver o Google mudando continuamente o que lhe é dito!
- 'Texto para fala' converte o texto de resposta para fala
Artigos semelhantes
- Qual é a maior estatística que um Pokemon pode ser (qualquer estatística, cada gênero, cada item, cada transformação, cada habilidade)?
- Quando é que o Google vai lançar o Google Camera app para outros dispositivos Android?
- Você deve lançar um aplicativo iOS e Android simultaneamente? Ou você deve lançar em apenas uma plataforma primeiro?
- Qual será a funcionalidade mais melhorada ou a melhor nova funcionalidade no novo Samsung Galaxy Note 10, a ser lançado em 7 de Agosto de 2019?