- Modelos da OpenAI alucinam mais do que os antigos.
- IA o3 chega a 48% de respostas falsas.
- Raciocínio melhora tarefas, mas aumenta erros.
Os novos modelos de raciocínio da OpenAI, chamados o3 e o4-mini, chegaram com a promessa de avanços significativos. Eles dominam tarefas de lógica, codificação e matemática com facilidade.
No entanto, alucinam mais do que versões anteriores, inventando informações com frequência preocupante. Isso coloca em xeque sua aplicação em contextos que exigem alta confiabilidade.
Modelos mais avançados, mas mais propensos a erros
A própria OpenAI reconheceu que o3 e o4-mini alucinam mais do que modelos anteriores como o1 e o o3-mini. Em testes internos, o o3 apresentou alucinações em 33% das respostas no benchmark PersonQA, contra 16% e 14,8% dos antecessores. O o4-mini foi ainda pior: 48% de respostas falsas.
Esses modelos criam respostas mais detalhadas, mas acabam gerando afirmações imprecisas com mais frequência. Isso ocorre porque eles “raciocinam” e constroem respostas com mais confiança, mesmo quando estão errados.
Segundo o relatório da OpenAI, ainda não existe uma explicação clara para o aumento dessas falhas. A empresa admite que “mais pesquisas são necessárias” para compreender o problema.
Pesquisadores detectam alucinações complexas e criativas
O laboratório Transluce também testou o o3 e identificou casos graves de invenção. Em um exemplo, o modelo afirmou ter rodado um código em um MacBook Pro fora do ambiente do ChatGPT,algo tecnicamente impossível.
Para Neil Chowdhury, pesquisador da Transluce, o problema pode estar ligado ao tipo de aprendizado por reforço adotado nos modelos da série O. Ele acredita que essa abordagem amplifica falhas que normalmente seriam corrigidas no pós-treinamento tradicional.
Sarah Schwettmann, cofundadora da Transluce, destaca que o nível de alucinação do o3 pode comprometer sua utilidade. Já Kian Katanforoosh, professor de Stanford, relata que o modelo frequentemente cria links quebrados em tarefas de codificação.
Apesar disso, empresas seguem testando o o3 por sua capacidade superior de resolver problemas técnicos. A questão permanece: vale apostar em uma IA mais inteligente, mas menos confiável?
Hoje, muitos especialistas veem a integração com ferramentas de busca como um caminho promissor para combater alucinações. O GPT-4o mini, por exemplo, atinge 90% de precisão ao usar busca na web no benchmark SimpleQA.
Por fim, a corrida por modelos mais precisos segue como prioridade. A OpenAI diz trabalhar constantemente para corrigir alucinações e melhorar a confiabilidade de seus sistemas. Mas, por ora, quanto mais a IA “raciocina”, mais ela também pode inventar.