Voice – Nakatani's Concept place

A análise e sintetização de voz podem ser utilizados na inteligência artificial como entrada e saída de informação.

Hoje não é difícil encontrar sistemas de automação industrial, residencial e automotivo que disponibilizam comandos de voz para o usuário.

Na plataforma da Azure, existem capacidades que possibilitam a entrada de uma informação em formato sonoro e transformar em texto e vice-versa.

O reconhecimento de voz Azure possibilita identificar palavras de uma entrada de áudio e transformar em texto para ser armazenado ou apresentado na forma de legenda para o usuário.

O sintetizador de voz Azure faz o contrário do reconhecimento de voz, ele faz a leitura de um arquivo texto e sintetiza as palavras em um áudio.

Detalhes da API.

O serviço cognitivo de fala Azure oferece API’s para reconhecimento de fala e sintetizador de voz.

A API de conversão de fala em texto pode ser executada em tempo real ou em lote.

A execução em tempo real é uma ótima opção para transformar em tempo real o áudio em legendas, já em outros casos, podemos enviar um áudio extenso e transcrever em um arquivo de texto, nesse caso é mais interessante utilizar o modo de transformação em lote.

A API de conversão de texto em fala disponibiliza a capacidade de converter um texto em um áudio falado.

Essa API é muito útil para soluções de interação com deficientes visuais, onde podemos sintetizar um texto em voz, podendo inclusive escolher o idioma e o locutor.

Conclusão.

A Azure oferece uma série de funcionalidades para soluções de inteligência artificial e ciência de dados, e a API de fala pode ser usada para algumas soluções nesse segmento sem necessidade de implementação de lógica de programação.