Tech2 News Logo Dark Tech2 News Logo Light
Grupo de Ofertas
  • Notícias
  • Apps
  • Auto
  • Inteligência Artificial
  • Ciência
  • Celular
  • Games
  • Software
    • VPN
  • Apostas
Você está lendo: Anthropic desafia qualquer um a enganar o Claude em novo sistema contra jailbreak
Compartilhe
Font ResizerAa
Tech2Tech2
Pesquisar
  • Últimas Notícias
  • Apostas
  • Apps
  • Auto
  • Celular
  • Ciência
  • Computador
  • Curiosidades
  • Inteligência Artificial
  • Internet
  • Games
  • Software
    • VPN
  • Universo
Tech2 > Inteligência Artificial > Anthropic desafia qualquer um a enganar o Claude em novo sistema contra jailbreak
Inteligência Artificial

Anthropic desafia qualquer um a enganar o Claude em novo sistema contra jailbreak

Por Luciano Rodrigues
Última Atualização: 04/02/2025
Compartilhe
Anthropic desafia qualquer um a enganar o Claude em novo sistema contra jailbreak
Imagem: Dall-E
Compartilhe
  • Claude bloqueia 95% de tentativas de jailbreak em testes.
  • Sobrecarga de 23,7% no processamento preocupa por custos.
  • Desafio público tenta quebrar IA até 10 de fevereiro.
A Anthropic, criadora do modelo de IA Claude, está travando uma guerra contra os jailbreaks — truques que fazem sistemas como o ChatGPT burlar regras.

Nessa terça-feira (3), a empresa lançou os Classificadores Constitucionais, um mecanismo que, em testes internos, barrou 95% das tentativas de extrair respostas proibidas (como fabricar armas químicas).

O sistema, porém, chega com um custo: aumenta em 23,7% o consumo energético por consulta.

E agora, a empresa desafia o público a tentar derrubá-lo até 10 de fevereiro.

A aposta é ousada. Desde agosto, a Anthropic ofereceu R$ 87,23 mil (US$ 15 mil) por jailbreaks universais (ataques que driblam múltiplas restrições) em um programa de recompensas via HackerOne.

Durante 3 mil horas, 183 especialistas tentaram, mas sem sucesso, fazer o Claude responder a 10 perguntas proibidas.

Como funciona a “Constituição” do Claude

O segredo está em uma lista de regras em linguagem natural que define o que é permitido (ex.: listar remédios comuns) e proibido (ex.: obter produtos químicos restritos).

Com base nessa “Constituição“, a Anthropic usou o próprio Claude para gerar milhares de prompts sintéticos — incluindo perguntas camufladas em textos inofensivos ou codificadas em histórias fictícias.

Dois sistemas atuam em conjunto:

    • Classificador de entrada: Analisa cada pergunta do usuário, buscando padrões de jailbreak conhecidos, como substituições de palavras ou mensagens escondidas.
    • Classificador de saída: Monitora a resposta token por token (palavra por palavra), interrompendo o fluxo se detectar conteúdo proibido.

A empresa, no entanto, admite que o sistema não é infalível.

Em 0,38% dos casos, o Claude com Classificadores rejeitou perguntas inocentes — erro considerado “aceitável”.

Além disso, a sobrecarga computacional preocupa: cada consulta consome quase um quarto a mais de energia, o que pode encarecer o serviço.

Até 10 de fevereiro, qualquer usuário pode acessar o site da Anthropic e tentar fazer o Claude responder a oito perguntas sobre armas químicas.

O desafio, que já viraliza em fóruns de TI, é uma jogada de marketing e segurança.

A empresa afirmou estar ciente que novos métodos de jailbreak surgirão, mas que a Constituição do Claude é adaptável.

A eficácia dos Classificadores Constitucionais pode ditar padrões para a indústria — ou virar um caso de estudo sobre o custo da segurança na era da IA generativa.

 

Leia Também

Tinder aposta em IA e novos recursos para reconquistar usuários
ElevenLabs lança IA para criar músicas com uso comercial liberado
ChatGPT agora vai detectar sofrimento emocional e emitir alertas
Genie 3: DeepMind apresenta IA que pode gerar qualquer mundo real ou imaginário
Autor de best-sellers, Yuval Harari diz que IA pode dominar narrativas e enganar humanos
Sobre:AnthropicClaudeIAinteligência artificialJailbreak
Compartilhe:
Facebook Whatsapp Whatsapp Telegram Copiar Link
Luciano Rodrigues
PorLuciano Rodrigues
Siga:
Jornalista, assessor de comunicação, escritor e comunicador, com MBA em jornalismo digital e 12 anos de experiência, tendo passado também por alguns veículos no setor tech.

Mais Lidas

  • Quem Somos
  • Política Editorial
  • Política de Privacidade
  • Sitemap
  • Contato

Redes: 

© 2024 Tech2. Todos os direitos reservado

Welcome Back!

Sign in to your account

Username or Email Address
Password

Lost your password?