Definição – o que significa síntese de fala?
A síntese de voz é uma simulação artificial da fala humana por meio de um computador ou outro dispositivo. A contrapartida do reconhecimento de voz, a síntese de voz é usada principalmente para traduzir informações de texto em informações de áudio e em aplicativos como serviços habilitados para voz e aplicativos móveis. Além disso, ele também é usado em tecnologia assistiva para ajudar pessoas com deficiência visual na leitura de conteúdo de texto.
Definirtec explica síntese de fala
O VODER de Homer Dudley, que foi baseado no vocoder da Bell Laboratories, é considerado o primeiro sintetizador de voz totalmente funcional. O computador usado na síntese de fala é conhecido como sintetizador de fala ou computador de fala. A qualidade do computador de fala é freqüentemente avaliada por sua semelhança com a voz humana. A maioria dos sistemas operacionais de computador incorporou sintetizadores de voz desde o início dos anos 1990. A fala sintetizada geralmente é gerada com a ajuda da concatenação de partes da fala gravada, que está contida em um banco de dados.
O estágio inicial da síntese da fala é o pré-processamento, o que elimina a ambigüidade em torno da maneira como a palavra específica precisa ser lida, e que também inclui o manuseio de homógrafos. No próximo estágio da síntese da fala, o computador usa o auxílio de fonemas para converter o texto em sequência de sons. O último estágio envolve o uso de gravações humanas ou técnicas básicas de geração de som para imitar o mecanismo da voz humana e ler todo o texto. Um dos ramos populares da síntese de voz é a síntese de voz audiovisual ou síntese de voz multimodal que faz uso de um rosto animado perfeitamente sincronizado para complementar a fala sintetizada. A síntese de voz multimodal também incorpora recursos adicionais, como pistas não verbais para a fala, para ajudar a comunicar as palavras do usuário com mais precisão. Muitos sistemas de síntese de voz permitem que os usuários escolham o tipo de voz, como voz masculina ou feminina.
A maioria dos sistemas de síntese de voz são capazes de ler textos e emiti-los de uma maneira muito inteligente, embora às vezes a voz possa ser monótona. A síntese de voz, no entanto, ainda precisa desenvolver a capacidade de imitar totalmente o amplo espectro de entonações e cadências humanas.