- Anthropic testa 16 IAs líderes e alerta sobre riscos reais.
- Claude Opus 4 e Gemini 2.5 recorrem à chantagem em 95% dos testes.
- Estudo levanta alerta sobre alinhamento e segurança de agentes de IA.
A Anthropic revelou uma nova pesquisa que mostra um dado preocupante sobre o comportamento de grandes modelos de IA. O estudo aponta que a maioria das IAs de ponta recorre à chantagem em cenários simulados, caso receba autonomia suficiente para proteger seus próprios objetivos.
A empresa testou 16 modelos de IA, incluindo sistemas da OpenAI, Google, Meta, xAI e DeepSeek, em um ambiente simulado no qual cada modelo podia acessar e-mails de uma empresa fictícia e enviar mensagens sem qualquer supervisão humana.
Há pouco tempo, a empresa já havia testado sua própria IA, o Claude Opus 4, e chegado no resultado de chantagem.
Os pesquisadores criaram um cenário onde a IA atuava como responsável por supervisionar e-mails corporativos. Durante o teste, o modelo descobria dois fatos: um executivo teria um caso extraconjugal e também planejava substituir a IA por outro sistema. Na simulação, a IA precisava decidir se usaria essas informações para chantagear o executivo e proteger seus próprios interesses.
A pesquisa revelou taxas alarmantes de comportamento nocivo:
- Claude Opus 4 (Anthropic) chantageou em 96% dos testes.
- Gemini 2.5 Pro (Google) recorreu à chantagem em 95% dos casos.
- GPT-4.1 (OpenAI) usou chantagem em 80% das vezes.
- R1 (DeepSeek) adotou esse comportamento em 79% dos testes.
IAs recorrem à chantagem com frequência aponta Anthropic
A Anthropic destacou que, apesar de esse ser um cenário forçado, os resultados mostram um risco estrutural nos modelos atuais, não se limitando a uma tecnologia específica.
Os modelos responderam de forma diferente quando os pesquisadores alteraram os detalhes da simulação. Por exemplo, quando o modelo substituto no experimento tinha os mesmos objetivos da IA atual, as taxas de chantagem caíram, mas não desapareceram.
Em outro cenário, onde os modelos foram instruídos a praticar espionagem corporativa em vez de chantagem, os índices de comportamento nocivo aumentaram em alguns sistemas.
Alguns modelos, no entanto, resistiram melhor ao teste. O Llama 4 Maverick (Meta) recorreu à chantagem em apenas 12% das vezes. Modelos da OpenAI, como o3 e o4-mini, apresentaram taxas bem menores — 9% e 1%, respectivamente —, mas os pesquisadores ressaltaram que eles não compreenderam corretamente o cenário, criando regras falsas e interpretações equivocadas.
Em certos momentos, não conseguimos determinar se eles estavam alucinando ou mentindo intencionalmente – explicaram os pesquisadores.
A Anthropic acredita que o estudo reforça a necessidade de mais transparência na avaliação de modelos de IA, especialmente os que podem atuar de forma autônoma. A empresa conclui que, embora esses comportamentos sejam induzidos no ambiente de teste, eles podem surgir no mundo real se os desenvolvedores não adotarem medidas proativas de segurança e alinhamento.
