À medida que fica mais inteligente, seu chatbot fica mais imprevisível.
Alucinações sempre foram um problema para modelos de IA generativos: a mesma estrutura que os permite ser criativos e produzir textos e imagens também os torna propensos a inventar coisas. E o problema das alucinações não está melhorando à medida que os modelos de IA progridem — na verdade, está piorando.
Em um novo relatório técnico da OpenAI (via The New York Times ), a empresa detalha como seus modelos mais recentes, o3 e o4-mini, apresentam alucinações de 51% e 79%, respectivamente, em um benchmark de IA conhecido como SimpleQA. Para o modelo o1 anterior, a taxa de alucinação do SimpleQA é de 44%.
Esses são números surpreendentemente altos e apontam na direção errada. Esses modelos são conhecidos como modelos de raciocínio porque refletem sobre suas respostas e as entregam mais lentamente. Claramente, com base nos próprios testes da OpenAI, essa análise das respostas está abrindo mais espaço para a introdução de erros e imprecisões.
Fatos falsos não se limitam de forma alguma ao OpenAI e ao ChatGPT. Por exemplo, não demorou muito para que eu, ao testar o recurso de pesquisa “Visão Geral da IA” do Google, o encontrasse com um erro , e a incapacidade da IA de extrair informações da web corretamente já foi bem documentada . Recentemente, um bot de suporte para o aplicativo de codificação de IA Cursor anunciou uma mudança de política que, na verdade, não havia sido implementada .
Mas você não encontrará muitas menções a essas alucinações nos anúncios que as empresas de IA fazem sobre seus produtos mais recentes e inovadores. Juntamente com o uso de energia e a violação de direitos autorais , as alucinações são algo sobre o qual os grandes nomes da IA preferem não falar.
Curiosamente, não notei muitas imprecisões ao usar bots e buscas de IA — a taxa de erro certamente não chega nem perto de 79%, embora erros sejam cometidos. No entanto, parece que esse é um problema que nunca desaparecerá, principalmente porque as equipes que trabalham nesses modelos de IA não entendem completamente por que as alucinações acontecem.
Em testes realizados pela Vectera, desenvolvedora de plataformas de IA, os resultados são muito melhores , embora não perfeitos: aqui, muitos modelos mostram taxas de alucinação de um a três por cento. O modelo o3 da OpenAI apresenta 6,8%, enquanto o mais novo (e menor) o4-mini apresenta 4,6%. Isso está mais de acordo com minha experiência interagindo com essas ferramentas, mas mesmo um número muito baixo de alucinações pode significar um grande problema — especialmente à medida que transferimos cada vez mais tarefas e responsabilidades para esses sistemas de IA.
Descobrindo as causas das alucinações
Ninguém sabe realmente como corrigir alucinações ou identificar completamente suas causas: esses modelos não são criados para seguir regras definidas por seus programadores, mas para escolher sua própria maneira de trabalhar e responder. O diretor executivo da Vectara, Amr Awadallah, disse ao New York Times que os modelos de IA “sempre terão alucinações” e que esses problemas “nunca desaparecerão”.
A professora Hannaneh Hajishirzi, da Universidade de Washington, que está trabalhando em maneiras de fazer engenharia reversa em respostas de IA, disse ao NYT que “ainda não sabemos exatamente como esses modelos funcionam”. Assim como na solução de problemas com seu carro ou computador, você precisa saber o que deu errado para fazer algo a respeito.
De acordo com o pesquisador Neil Chowdhury, do laboratório de análise de IA Transluce, a forma como os modelos de raciocínio são construídos pode estar agravando o problema. “Nossa hipótese é que o tipo de aprendizado por reforço usado para modelos de série O pode amplificar problemas que geralmente são mitigados (mas não totalmente eliminados) por pipelines pós-treinamento padrão”, disse ele ao TechCrunch .
No próprio relatório de desempenho da OpenAI, por sua vez, a questão do “menor conhecimento do mundo” é mencionada, e também se observa que o modelo o3 tende a fazer mais afirmações do que seu antecessor — o que, por sua vez, leva a mais alucinações. Em última análise, porém, “mais pesquisas são necessárias para entender a causa desses resultados”, de acordo com a OpenAI.
E há muitas pessoas realizando essa pesquisa. Por exemplo, acadêmicos da Universidade de Oxford publicaram um método para detectar a probabilidade de alucinações medindo a variação entre múltiplas saídas de IA. No entanto, isso custa mais em termos de tempo e poder de processamento e não resolve realmente o problema das alucinações — apenas indica quando elas são mais prováveis.
Embora permitir que modelos de IA verifiquem seus fatos na web possa ajudar em certas situações, eles também não são particularmente bons nisso. Falta-lhes (e nunca terão) o senso comum humano básico que diz que cola não deve ser colocada em pizza ou que US$ 410 por um café do Starbucks é claramente um erro.
O que é certo é que não se pode confiar em robôs de IA o tempo todo, apesar de seu tom confiante — seja fornecendo resumos de notícias , aconselhamento jurídico ou transcrições de entrevistas . É importante lembrar disso, pois esses modelos de IA aparecem cada vez mais em nossas vidas pessoais e profissionais, e é uma boa ideia limitar a IA a casos de uso em que as alucinações importam menos.
Leave a Reply