Episódio 5 - O computador escuta e fala, mas será que ele entende? - Transformando o futuro com educação e inovação

DE VOLTA AO BÁSICO

Episódio 5 - O computador escuta e fala, mas será que ele entende?

Todos os dias você e seu celular conversam. Você dita uma mensagem que é transcrita pelo aplicativo de mensagens, o Waze indica o caminho a ser seguido, você pede uma dica de restaurante para a Siri e ela responde.

Fazemos isso de forma automática. A interação por voz já foi incorporada no nosso dia a dia. Mas você já parou para pensar como isso acontece? Por trás dessas tarefas existe um desafio enorme: como fazer uma máquina ouvir o que dizemos, entender o sentido da mensagem e responder de forma adequada?

O processamento de linguagem natural (PLN) é a área da inteligência artificial (IA) dedicada a fazer com que computadores consigam lidar com a linguagem humana, escrita ou falada. Isso inclui tarefas como transformar fala em texto, interpretar o sentido das palavras, classificar mensagens, traduzir idiomas, resumir documentos e gerar respostas. Em outras palavras, o PLN tenta ensinar o computador a trabalhar com voz, palavras, frases e contextos, mesmo que ele não compreenda a linguagem da mesma forma que a gente.

Durante muito tempo, isso foi feito por meio de regras previamente definidas. Eram sistemas rígidos, capazes de reconhecer apenas comandos ou frases muito limitadas. As mensagens automáticas (e mecânicas) de aeroportos, centrais telefônicas e outros sistemas antigos são bons exemplos disso. Depois vieram os computadores que já conseguiam responder com voz, embora ainda com entonação artificial e metálica. Aos poucos, com o aumento da capacidade computacional, da disponibilidade de dados e do uso de métodos estatísticos e redes neurais, esses sistemas foram se tornando mais sofisticados. Hoje, muitos deles já conseguem transcrever fala, interpretar pedidos e responder de forma muito mais natural.

O PLN pode ser dividido em quatro etapas gerais:

transformação da voz em texto;
interpretação da mensagem;
elaboração da resposta;
transformação do texto em voz.

Nem todas as etapas estão presentes em todos os processos. Por exemplo, quando você solicita ao celular que ligue para alguém, apenas as duas primeiras etapas estão presentes. Mas, quando você pergunta à Alexa sobre a previsão do tempo, ocorrem as quatro etapas.

Na primeira etapa, a máquina precisa transformar a voz em texto (speech-to-text). Parece simples, mas não é. O computador precisa captar o som, separar a fala de ruídos do ambiente, identificar as palavras e convertê-las em texto escrito. Uma frase é um som contínuo, com momentos de redução de intensidade entre as palavras. Ninguém fala palavra por palavra. Isso fica ainda mais difícil quando há sotaques diferentes, fala muito rápida, palavras parecidas ou nomes pouco conhecidos. É por isso que, às vezes, o celular transcreve uma mensagem completamente errada.

Depois da transcrição, o sistema precisa interpretar a mensagem e decidir o que fazer com ela. Se você diz “me leve para casa”, o Waze precisa entender que aquilo é um pedido de rota. Se você pergunta à assistente virtual “vai chover hoje?”, ela precisa identificar que se trata de uma pergunta sobre previsão do tempo. Essa é a etapa mais importante do processamento de linguagem natural, porque envolve intenção, contexto e análise da mensagem. Antigamente, os programas usavam regras rígidas para responder aos pedidos. Hoje, muitos sistemas utilizam modelos de linguagem nessa fase, mas esse assunto será abordado no próximo episódio. Ao final dessa fase, o programa vai gerar um texto em resposta à sua demanda.

Agora, com a resposta pronta, o sistema precisa transformá-la novamente em voz. Esse processo é chamado de texto para voz (text-to-speech). É o que acontece quando a assistente virtual responde a uma pergunta ou quando o aplicativo de navegação informa a próxima manobra. Durante muito tempo, essas vozes soavam artificiais, pausadas e metálicas. Hoje elas estão mais naturais, com melhor entonação e ritmo mais próximo da fala humana, graças à IA.

O processamento de linguagem natural não faz o computador pensar como um ser humano. Ele transforma sons em texto, analisa padrões da linguagem, identifica intenções, produz respostas e lê as respostas com uma voz quase humana. Esse é o processo que permite às máquinas ouvir, transcrever, interpretar e falar. Mas uma coisa é lidar com linguagem. Outra, bem diferente, é compreender de fato o que está sendo dito.

No próximo episódio, vamos entrar justamente nesse ponto. Afinal, o que são os modelos de linguagem e por que eles passaram a ocupar um papel central na forma como as máquinas analisam e respondem à linguagem humana?

Se quiser aprofundar seu conhecimento sobre IA e modelos de linguagem, conheça o curso Desbravando o ChatGPT (www.antoniotoledo.com.br).