Frequentemente,
a expressão "reconhecimento de voz" é utilizada com
vários sentidos, que, na verdade, referem-se a tecnologias distintas.
O processamento da voz pode ser aplicado em quatro áreas principais:
comandos por voz, fala natural, síntese de voz e autenticação
de voz. Cada uma destas é descrita a seguir:
O reconhecimento de palavras
(utilizado nos comandos de voz) caracteriza-se por processar apenas um pequeno
trecho de fala, de modo a identificar que tipo de acção o sistema
deve tomar. Este processamento torna-se simplificado, uma vez que o sistema
já sabe de antemão quais os comandos disponíveis para o
utilizador. Este é o caso de centrais de atendimento telefónico,
onde o utilizador pode usar a voz em vez de pressionar botões.
O reconhecimento de fala
natural (ou fala contínua) envolve uma ou mais frases, isto é,
várias palavras que tenham um sentido semântico. A fala reconhecida
é então convertida em texto. O tipo de aplicação
mais comum para essa tecnologia é o ditado de documentos, para uso em
processadores de texto, escrita de e-mails, etc.
A síntese de voz
é o processo contrário ao do reconhecimento da fala. O sintetizador
recebe um texto na forma digital e transforma-o em ondas sonoras, ou em outras
palavras, fazendo uma leitura em voz alta. Um programa de síntese de
voz é útil nas situações em que o utilizador não
pode desviar a atenção para ler algo ou não tem acesso
ao texto escrito, seja porque a informação está distante
ou porque o utilizador tem alguma deficiência visual.
A autenticação
baseia-se, por sua vez, no facto de que a voz é única para cada
pessoa e pode ser utilizada para identificar alguém. Os sistemas de autenticação
podem ser aplicados para permitir o acesso de uma pessoa a uma determinada função.
Sendo assim, e dado que
a temática deste trabalho é apenas o reconhecimento de voz,
o leitor deverá ter em atenção que os capítulos
seguintes apenas irão cobrir a matéria referente aos dois primeiros
conceitos acima referidos.