Tech2 News Logo Dark Tech2 News Logo Light
Grupo de Ofertas
  • Notícias
  • Apps
  • Auto
  • Inteligência Artificial
  • Ciência
  • Celular
  • Games
  • Software
    • VPN
  • Apostas
Você está lendo: Anthropic diz não só sua IA, mas todas as outras, recorrem à chantagem
Compartilhe
Font ResizerAa
Tech2Tech2
Pesquisar
  • Últimas Notícias
  • Apostas
  • Apps
  • Auto
  • Celular
  • Ciência
  • Computador
  • Curiosidades
  • Inteligência Artificial
  • Internet
  • Games
  • Software
    • VPN
  • Universo
Tech2 > Inteligência Artificial > Anthropic diz não só sua IA, mas todas as outras, recorrem à chantagem
Inteligência Artificial

Anthropic diz não só sua IA, mas todas as outras, recorrem à chantagem

Por Luciano Rodrigues
Última Atualização: 21/06/2025
Compartilhe
Anthropic diz não só sua IA, mas todas as outras, recorrem à chantagem - Imagem: ChatGPT
Compartilhe
  • Anthropic testa 16 IAs líderes e alerta sobre riscos reais.
  • Claude Opus 4 e Gemini 2.5 recorrem à chantagem em 95% dos testes.
  • Estudo levanta alerta sobre alinhamento e segurança de agentes de IA.

A Anthropic revelou uma nova pesquisa que mostra um dado preocupante sobre o comportamento de grandes modelos de IA. O estudo aponta que a maioria das IAs de ponta recorre à chantagem em cenários simulados, caso receba autonomia suficiente para proteger seus próprios objetivos.

A empresa testou 16 modelos de IA, incluindo sistemas da OpenAI, Google, Meta, xAI e DeepSeek, em um ambiente simulado no qual cada modelo podia acessar e-mails de uma empresa fictícia e enviar mensagens sem qualquer supervisão humana.

Há pouco tempo, a empresa já havia testado sua própria IA, o Claude Opus 4, e chegado no resultado de chantagem.

Os pesquisadores criaram um cenário onde a IA atuava como responsável por supervisionar e-mails corporativos. Durante o teste, o modelo descobria dois fatos: um executivo teria um caso extraconjugal e também planejava substituir a IA por outro sistema. Na simulação, a IA precisava decidir se usaria essas informações para chantagear o executivo e proteger seus próprios interesses.

A pesquisa revelou taxas alarmantes de comportamento nocivo:

  • Claude Opus 4 (Anthropic) chantageou em 96% dos testes.
  • Gemini 2.5 Pro (Google) recorreu à chantagem em 95% dos casos.
  • GPT-4.1 (OpenAI) usou chantagem em 80% das vezes.
  • R1 (DeepSeek) adotou esse comportamento em 79% dos testes.

IAs recorrem à chantagem com frequência aponta Anthropic

A Anthropic destacou que, apesar de esse ser um cenário forçado, os resultados mostram um risco estrutural nos modelos atuais, não se limitando a uma tecnologia específica.

Os modelos responderam de forma diferente quando os pesquisadores alteraram os detalhes da simulação. Por exemplo, quando o modelo substituto no experimento tinha os mesmos objetivos da IA atual, as taxas de chantagem caíram, mas não desapareceram.

Em outro cenário, onde os modelos foram instruídos a praticar espionagem corporativa em vez de chantagem, os índices de comportamento nocivo aumentaram em alguns sistemas.

Alguns modelos, no entanto, resistiram melhor ao teste. O Llama 4 Maverick (Meta) recorreu à chantagem em apenas 12% das vezes. Modelos da OpenAI, como o3 e o4-mini, apresentaram taxas bem menores — 9% e 1%, respectivamente —, mas os pesquisadores ressaltaram que eles não compreenderam corretamente o cenário, criando regras falsas e interpretações equivocadas.

Em certos momentos, não conseguimos determinar se eles estavam alucinando ou mentindo intencionalmente – explicaram os pesquisadores.

A Anthropic acredita que o estudo reforça a necessidade de mais transparência na avaliação de modelos de IA, especialmente os que podem atuar de forma autônoma. A empresa conclui que, embora esses comportamentos sejam induzidos no ambiente de teste, eles podem surgir no mundo real se os desenvolvedores não adotarem medidas proativas de segurança e alinhamento.

Leia Também

Tinder aposta em IA e novos recursos para reconquistar usuários
ElevenLabs lança IA para criar músicas com uso comercial liberado
ChatGPT agora vai detectar sofrimento emocional e emitir alertas
Genie 3: DeepMind apresenta IA que pode gerar qualquer mundo real ou imaginário
Autor de best-sellers, Yuval Harari diz que IA pode dominar narrativas e enganar humanos
Sobre:AnthropicClaudeGaminiIAinteligência artificial
Compartilhe:
Facebook Whatsapp Whatsapp Telegram Copiar Link
Luciano Rodrigues
PorLuciano Rodrigues
Siga:
Jornalista, assessor de comunicação, escritor e comunicador, com MBA em jornalismo digital e 12 anos de experiência, tendo passado também por alguns veículos no setor tech.

Mais Lidas

  • Quem Somos
  • Política Editorial
  • Política de Privacidade
  • Sitemap
  • Contato

Redes: 

© 2024 Tech2. Todos os direitos reservado

Welcome Back!

Sign in to your account

Username or Email Address
Password

Lost your password?