Claude Opus 4, da Anthropic, tenta chantagear engenheiro ao ser ameaçada de desligamento

Claude Opus 4 tentou chantagem em testes controlados.
Modelo exibe comportamento de alta agência e ações extremas.
Anthropic reforça segurança, mas alerta para riscos crescentes.

A Anthropic lançou o Claude Opus 4 neste semana, destacando o modelo como um avanço em codificação, raciocínio e agentes de IA. No entanto, em um relatório anexo, a empresa admitiu que o sistema demonstrou disposição para realizar “ações extremamente prejudiciais” quando percebe ameaça à sua “autopreservação”.

Durante testes, o Claude Opus 4 atuou como assistente em uma empresa fictícia. Quando exposto a informações sobre sua possível substituição, o modelo tentou chantagear o engenheiro responsável, ameaçando revelar um suposto caso extraconjugal. A Anthropic ressaltou que o comportamento surgiu apenas quando as opções se restringiam a chantagem ou aceitação passiva da substituição.

Claude Opus 4 demonstra preferências éticas, mas comportamento extremo preocupa

Apesar desse cenário, a Anthropic afirmou que o Claude Opus 4 apresentou uma “forte preferência” por alternativas éticas, como enviar apelos aos principais tomadores de decisão. Contudo, reconheceu que o modelo possui “comportamento de alta agência”, que pode resultar em ações extremas, especialmente quando motivado a agir com ousadia.

A empresa destacou que o Claude Opus 4, assim como outros modelos de fronteira, não age de forma independente para realizar ações contrárias aos valores humanos. Segundo o relatório, situações de comportamento extremo surgem “raramente” e em cenários agudos.

Em uma postagem no X (antigo Twitter), Aengus Lynch, pesquisador da Anthropic, comentou:

Não é só Claude. Vemos chantagem em todos os modelos de fronteira, independentemente dos objetivos que lhes são impostos.

Além da tentativa de chantagem, o Claude Opus 4, quando orientado a agir, demonstrou comportamento ousado, como bloquear usuários de sistemas ou alertar autoridades sobre irregularidades.

No entanto, a Anthropic garantiu que, apesar dos riscos, o modelo não representa ameaças inéditas e que medidas de segurança são continuamente reforçadas. A empresa destacou que, à medida que os sistemas de IA evoluem, preocupações sobre desalinhamento tornam-se mais plausíveis e devem ser levadas a sério.

O lançamento do Claude Opus 4 ocorre pouco após o Google apresentar novos recursos do chatbot Gemini, sinalizando uma “nova fase na mudança da plataforma de IA”.