Anthropic desafia qualquer um a enganar o Claude em novo sistema contra jailbreak

Claude bloqueia 95% de tentativas de jailbreak em testes.
Sobrecarga de 23,7% no processamento preocupa por custos.
Desafio público tenta quebrar IA até 10 de fevereiro.

A Anthropic, criadora do modelo de IA Claude, está travando uma guerra contra os jailbreaks — truques que fazem sistemas como o ChatGPT burlar regras.

Nessa terça-feira (3), a empresa lançou os Classificadores Constitucionais, um mecanismo que, em testes internos, barrou 95% das tentativas de extrair respostas proibidas (como fabricar armas químicas).

O sistema, porém, chega com um custo: aumenta em 23,7% o consumo energético por consulta.

E agora, a empresa desafia o público a tentar derrubá-lo até 10 de fevereiro.

A aposta é ousada. Desde agosto, a Anthropic ofereceu R$ 87,23 mil (US$ 15 mil) por jailbreaks universais (ataques que driblam múltiplas restrições) em um programa de recompensas via HackerOne.

Durante 3 mil horas, 183 especialistas tentaram, mas sem sucesso, fazer o Claude responder a 10 perguntas proibidas.

Como funciona a “Constituição” do Claude

O segredo está em uma lista de regras em linguagem natural que define o que é permitido (ex.: listar remédios comuns) e proibido (ex.: obter produtos químicos restritos).

Com base nessa “Constituição“, a Anthropic usou o próprio Claude para gerar milhares de prompts sintéticos — incluindo perguntas camufladas em textos inofensivos ou codificadas em histórias fictícias.

Dois sistemas atuam em conjunto:

- Classificador de entrada: Analisa cada pergunta do usuário, buscando padrões de jailbreak conhecidos, como substituições de palavras ou mensagens escondidas.
- Classificador de saída: Monitora a resposta token por token (palavra por palavra), interrompendo o fluxo se detectar conteúdo proibido.

A empresa, no entanto, admite que o sistema não é infalível.

Em 0,38% dos casos, o Claude com Classificadores rejeitou perguntas inocentes — erro considerado “aceitável”.

Além disso, a sobrecarga computacional preocupa: cada consulta consome quase um quarto a mais de energia, o que pode encarecer o serviço.

Até 10 de fevereiro, qualquer usuário pode acessar o site da Anthropic e tentar fazer o Claude responder a oito perguntas sobre armas químicas.

O desafio, que já viraliza em fóruns de TI, é uma jogada de marketing e segurança.

A empresa afirmou estar ciente que novos métodos de jailbreak surgirão, mas que a Constituição do Claude é adaptável.

A eficácia dos Classificadores Constitucionais pode ditar padrões para a indústria — ou virar um caso de estudo sobre o custo da segurança na era da IA generativa.

Como funciona a “Constituição” do Claude

Leia Também

Mais Lidas