Estudo revela: Resumos feitos por IA estão cada vez piores

Modelos de IA cometem mais erros em resumos recentes
Resumos científicos apresentam até 73% de imprecisões
BBC alerta para riscos de desinformação com IA

O discurso otimista das empresas de tecnologia segue forte: a inteligência artificial promete transformar o trabalho, acelerar pesquisas e facilitar o acesso à informação. No entanto, um novo estudo desafia essas promessas, especialmente no que diz respeito à qualidade dos resumos gerados por IA.

Pesquisadores publicaram na revista Royal Society uma análise de quase 5 mil resumos científicos feitos por dez chatbots populares, incluindo ChatGPT-4o, DeepSeek e LLaMA 3.3 70B. O estudo apontou que até 73% dos resumos apresentaram erros, como omissão de dados importantes, generalizações excessivas e conclusões distorcidas.

Modelos mais novos cometem mais erros

De forma surpreendente, os pesquisadores identificaram que os modelos mais novos erram mais. O ChatGPT-4o foi nove vezes mais propenso a omitir informações essenciais em comparação com o ChatGPT-4 Turbo. Já o LLaMA 3.3 70B superou esse índice e foi 36 vezes mais propenso a produzir generalizações incorretas.

Os pesquisadores alertam que os chatbots frequentemente omitem detalhes cruciais, o que faz com que leitores interpretem os resultados científicos de forma mais ampla – e errada – do que os estudos permitem. Porém, o problema se agrava com a popularização dessas ferramentas, como mostram dados sobre o aumento de uso do ChatGPT entre adolescentes americanos entre 2023 e 2025.

Erros também afetam resumos de notícias

O problema não se limita à ciência. Uma investigação da BBC analisou resumos de notícias gerados por quatro chatbots: ChatGPT, Copilot, Gemini e Perplexity. A conclusão foi alarmante: 51% das respostas continham erros relevantes, como informações factuais incorretas, datas erradas e falas distorcidas.

Exemplos não faltam. O Gemini afirmou, erroneamente, que o sistema de saúde britânico não recomenda vape para parar de fumar. Porém, já o ChatGPT e o Copilot indicaram, incorretamente, que Rishi Sunak e Nicola Sturgeon ainda ocupavam seus cargos, mesmo após terem saído. O Perplexity chegou a atribuir declarações falsas à BBC sobre o Oriente Médio.

Em janeiro, a Apple suspendeu o recurso de geração de notícias da Apple Intelligence após casos de “alucinações” nos resumos, incluindo textos falsamente atribuídos à BBC. Deborah Turness, CEO da BBC News, declarou que as empresas de tecnologia estão “brincando com fogo” e pediu uma revisão urgente no uso dessas ferramentas.

Ainda mais, as big techs afirmam que trabalham para melhorar os sistemas, implementando controles como o robots.txt, que limita o acesso dos bots a certos conteúdos. No entanto, os pesquisadores destacam que os erros são estruturais e reforçam o risco de utilizar IA em setores que exigem extrema precisão, como jornalismo, medicina e ciência.

Modelos mais novos cometem mais erros

Erros também afetam resumos de notícias

Leia Também

Mais Lidas