Episódio 4 - Fazendo o computador enxergar - Transformando o futuro com educação e inovação

DE VOLTA AO BÁSICO

Episódio 4 - Fazendo o computador enxergar

Nos episódios anteriores, vimos os tipos de inteligência artificial (IA), como a aprendizagem de máquina e a aprendizagem profunda, e como a IA é treinada. A partir deste episódio, vamos ver os tipos de aplicações mais comuns no nosso dia a dia, como a visão computacional.

Todos os dias nós usamos sistemas que dependem dela, mesmo sem perceber. Quando o celular reconhece o seu rosto para desbloquear a tela, quando uma câmera lê a placa de um carro ou quando um aplicativo identifica um objeto em uma foto, há um sistema de visão computacional analisando imagens. Parece algo simples, quase automático, mas por trás dessas tarefas existe uma pergunta fascinante:

Como uma máquina consegue “ver” o mundo?

A visão computacional é a área da IA dedicada à interpretação de imagens e vídeos. Mas é importante entender que a máquina não enxerga como nós. Ela não vê rostos, carros, letras ou números da forma como nós vemos. Uma imagem é formada por milhões de pequenos quadradinhos, chamados pixels. Cada pixel tem um valor numérico, de acordo com sua cor. O computador analisa esse conjunto de números para identificar padrões que, para nós, correspondem às imagens.

Para você ter uma ideia mais concreta, uma foto em preto e branco padrão de um celular tem cerca de 3 mil pixels de altura e 4 mil de largura, totalizando 12 milhões de pixels. Se for colorida, ela tem três camadas (canais) de cor, totalizando 36 milhões de pixels (ou de valores numéricos)! É isso que o computador analisa para enxergá-la.

Para que a IA consiga criar esses padrões, é utilizada a aprendizagem profunda com redes neurais complexas, chamadas de redes neurais convolucionais. Elas aplicam vários filtros à imagem, para identificar os contornos, as cores e as texturas. Para que o computador “aprenda” o que é um determinado objeto, ele também precisa de um número muito grande de imagens. Por exemplo, para você ensinar a uma IA o que é um cachorro, é necessário um banco de treinamento com pelo menos 25 mil fotos de cachorros e de outros animais.

A visão computacional vai muito além de reconhecimento facial e leitura de códigos de barras. Na indústria, ela ajuda a identificar defeitos em peças e produtos em linhas de produção. No comércio, pode ser usada para monitorar prateleiras, reconhecer produtos e automatizar etapas do atendimento. No trânsito e na segurança pública, está presente na leitura de placas, no monitoramento de fluxos e na identificação de situações de risco. Em todos esses casos, a lógica é semelhante: a máquina analisa imagens para reconhecer padrões e apoiar decisões.

Na área da saúde, essa tecnologia ganhou destaque especial nos últimos anos. Ela pode ser aplicada na análise de exames de imagem, como radiografias, tomografias e ressonâncias magnéticas, fotos de lesões de pele e exames oftalmológicos. A visão computacional pode ser usada para analisar se um exame está normal, indicar a localização de uma possível alteração ou sugerir um diagnóstico. Isso não significa que a máquina substituirá o médico, mas que ela pode funcionar como apoio à análise humana, aumentando sua precisão e reduzindo o tempo de análise dos exames.

Mas é preciso cuidado para não transformar a visão computacional em uma espécie de mágica. Esses sistemas também erram. Eles podem falhar quando a imagem tem baixa qualidade, quando a iluminação é inadequada, quando o contexto é diferente daquele usado no treinamento ou quando o banco de dados não representa bem a diversidade do mundo real. Uma IA treinada com lesões dermatológicas em pessoas de pele clara provavelmente será menos precisa em lesões de pessoas com tons de pele mais escuros. Além disso, ela não é capaz de relacionar a imagem com o contexto do problema.

Fazer o computador enxergar não significa reproduzir a visão humana, mas transformar imagens em números, comparar padrões numéricos e identificar regularidades. É isso que permite à máquina reconhecer rostos, objetos, placas, lesões ou defeitos em produtos. No entanto, ela não sabe o significado daquela imagem. Em outras palavras, apesar de identificar o cachorro, ela não sabe o que é um cachorro de verdade!

No próximo episódio, vamos sair do universo das imagens e entrar no das palavras para entender como a IA lida com a linguagem humana.

Se quiser aprofundar seu conhecimento sobre modelos de linguagem, conheça o curso Desbravando o ChatGPT (www.antoniotoledo.com.br).