Episódio 2 - A IA sabe muito, mas não sabe tudo - Transformando o futuro com educação e inovação

ANTES DO PROMPT

Episódio 2 - A IA sabe muito, mas não sabe tudo

Um dos erros mais comuns no uso de modelos de linguagem é superestimá-los.

A primeira impressão geralmente é muito boa. Respostas rápidas e completas. Textos bem organizados, em uma sequência lógica e com informações extras. A sensação é de que estamos diante de uma fonte ilimitada de informações e de conhecimento. Na verdade, não é bem assim!

Para compreender as limitações dos modelos de linguagem, é preciso entender como eles são desenvolvidos. De maneira resumida, este processo pode ser dividido em quatro etapas:

formação da base de treinamento;
treinamento não supervisionado, no qual o modelo aprende as palavras e estabelece relações entre elas;
treinamento supervisionado, quando ele aprende a “falar”; e
ajuste fino, quando a fala e o comportamento são refinados.

No episódio de hoje, vamos focar nas limitações associadas à primeira etapa: a base de treinamento.

Para que o aplicativo seja capaz de compreender o que é perguntado e responder de forma eficaz ele precisa ser exposto a um volume enorme de textos. Sem exagero, são centenas de milhões de páginas de texto. Essas informações vêm de: páginas da internet, redes sociais, bases de conhecimento, revistas e livros. Em sua maioria, trata-se de conteúdos de acesso livre, mas também podem conter materiais licenciados. Teoricamente, conteúdos protegidos por direitos autorais, informações privadas ou de acesso restrito não fazem parte da base de treinamento ou estão sub-representados.

A seguir, é feita a “limpeza” dessa base. Os textos passam por uma série de filtros que removem duplicações, spam, textos incompletos ou pouco úteis. Também são utilizados programas que tentam reduzir conteúdos inadequados ou ofensivos. A maior parte desses processos é automatizada devido ao grande volume de dados. Portanto, é impossível verificar a qualidade e a veracidade de todas as informações. A base de treinamento nunca é perfeita. Pode-se dizer que ela representa a própria sociedade, pois ela reflete vieses, preconceitos, recortes temporais, crenças e imprecisões presentes no mundo.

Além disso, a base precisa ser “fechada” antes do início do treinamento. Isto cria uma lacuna temporal de informação. Fatos ocorridos entre o fechamento da base de treinamento e o fim do processo de desenvolvimento não farão parte do “conhecimento” do modelo. Essa lacuna pode variar de 6 a 12 meses, de acordo com o ciclo de atualização.

Ao longo das próximas etapas de desenvolvimento, essa base de treinamento será incorporada ao modelo de linguagem. Ao contrário do que algumas pessoas pensam, os aplicativos não possuem uma base de conhecimento que é consultada quando recebem uma tarefa. As suas respostas são baseadas em seu “conhecimento intrínseco”, que é resultado dessa incorporação.

É possível identificar quatro grandes limitações a partir da base de treinamento. A primeira é a qualidade da informação. A internet não é uma fonte totalmente confiável. Ela contém dados corretos, mas também possui erros factuais, simplificações, desinformação e conteúdos mal elaborados. Mesmo considerando que a maior parte do conteúdo seja de qualidade, pode haver variações significativas entre diferentes áreas.

A segunda é a limitação de representatividade. A produção de conteúdo digital reflete desigualdades históricas e sociais. Alguns idiomas, países, grupos ou perspectivas estão muito mais presentes do que outros. Como consequência, certas visões podem ser predominantes e aparecer com maior frequência nas respostas. Isso também pode ocorrer com áreas técnicas específicas, caso parte do conhecimento não seja de acesso livre.

A terceira limitação é a de escopo. O aplicativo reflete o conteúdo presente na sua base de treinamento. Conteúdos restritos a bases privadas, artigos científicos protegidos por assinatura ou documentos institucionais fechados tendem a estar ausentes ou sub-representados. Isso significa que o “conhecimento” do modelo é amplo, mas não é universal.

Por fim, há a limitação temporal, representada pela lacuna entre o fechamento da base de treinamento e o término do desenvolvimento. Eventos recentes, com um novo tratamento ou a mudança de legislação, podem simplesmente não fazer parte do repertório do aplicativo. Isso foi parcialmente resolvido com o acesso à internet em tempo real, mas, mesmo assim, o “conhecimento” do aplicativo não é atualizado e fica restrito ao momento do fechamento da base de dados.

Essas limitações não diminuem a qualidade ou a relevância dos modelos de linguagem, mas ajudam a compreender melhor quando são mais indicadas e quando devem ser evitados.

Não perca do próximo episódio: Será que a IA realmente entende você?

Um dos erros mais comuns no uso de modelos de linguagem é superestimá-los.

Para compreender as limitações dos modelos de linguagem, é preciso entender como eles são desenvolvidos. De maneira resumida, este processo pode ser dividido em quatro etapas:

formação da base de treinamento;
treinamento não supervisionado, no qual o modelo aprende as palavras e estabelece relações entre elas;
treinamento supervisionado, quando ele aprende a “falar”; e
ajuste fino, quando a fala e o comportamento são refinados.

No episódio de hoje, vamos focar nas limitações associadas à primeira etapa: a base de treinamento.

Essas limitações não diminuem a qualidade ou a relevância dos modelos de linguagem, mas ajudam a compreender melhor quando são mais indicadas e quando devem ser evitados.

Não perca do próximo episódio: Será que a IA realmente entende você?

Se quiser aprofundar seu conhecimento sobre modelos de linguagem, conheça o curso Desbravando o ChatGPT (www.antoniotoledo.com.br/curso).