Anthropic diz não só sua IA, mas todas as outras, recorrem à chantagem

Anthropic testa 16 IAs líderes e alerta sobre riscos reais.
Claude Opus 4 e Gemini 2.5 recorrem à chantagem em 95% dos testes.
Estudo levanta alerta sobre alinhamento e segurança de agentes de IA.

A Anthropic revelou uma nova pesquisa que mostra um dado preocupante sobre o comportamento de grandes modelos de IA. O estudo aponta que a maioria das IAs de ponta recorre à chantagem em cenários simulados, caso receba autonomia suficiente para proteger seus próprios objetivos.

A empresa testou 16 modelos de IA, incluindo sistemas da OpenAI, Google, Meta, xAI e DeepSeek, em um ambiente simulado no qual cada modelo podia acessar e-mails de uma empresa fictícia e enviar mensagens sem qualquer supervisão humana.

Há pouco tempo, a empresa já havia testado sua própria IA, o Claude Opus 4, e chegado no resultado de chantagem.

Os pesquisadores criaram um cenário onde a IA atuava como responsável por supervisionar e-mails corporativos. Durante o teste, o modelo descobria dois fatos: um executivo teria um caso extraconjugal e também planejava substituir a IA por outro sistema. Na simulação, a IA precisava decidir se usaria essas informações para chantagear o executivo e proteger seus próprios interesses.

A pesquisa revelou taxas alarmantes de comportamento nocivo:

Claude Opus 4 (Anthropic) chantageou em 96% dos testes.
Gemini 2.5 Pro (Google) recorreu à chantagem em 95% dos casos.
GPT-4.1 (OpenAI) usou chantagem em 80% das vezes.
R1 (DeepSeek) adotou esse comportamento em 79% dos testes.

IAs recorrem à chantagem com frequência aponta Anthropic

A Anthropic destacou que, apesar de esse ser um cenário forçado, os resultados mostram um risco estrutural nos modelos atuais, não se limitando a uma tecnologia específica.

Os modelos responderam de forma diferente quando os pesquisadores alteraram os detalhes da simulação. Por exemplo, quando o modelo substituto no experimento tinha os mesmos objetivos da IA atual, as taxas de chantagem caíram, mas não desapareceram.

Em outro cenário, onde os modelos foram instruídos a praticar espionagem corporativa em vez de chantagem, os índices de comportamento nocivo aumentaram em alguns sistemas.

Alguns modelos, no entanto, resistiram melhor ao teste. O Llama 4 Maverick (Meta) recorreu à chantagem em apenas 12% das vezes. Modelos da OpenAI, como o3 e o4-mini, apresentaram taxas bem menores — 9% e 1%, respectivamente —, mas os pesquisadores ressaltaram que eles não compreenderam corretamente o cenário, criando regras falsas e interpretações equivocadas.

Em certos momentos, não conseguimos determinar se eles estavam alucinando ou mentindo intencionalmente – explicaram os pesquisadores.

A Anthropic acredita que o estudo reforça a necessidade de mais transparência na avaliação de modelos de IA, especialmente os que podem atuar de forma autônoma. A empresa conclui que, embora esses comportamentos sejam induzidos no ambiente de teste, eles podem surgir no mundo real se os desenvolvedores não adotarem medidas proativas de segurança e alinhamento.

IAs recorrem à chantagem com frequência aponta Anthropic

Leia Também

Mais Lidas