- Claude bloqueia 95% de tentativas de jailbreak em testes.
- Sobrecarga de 23,7% no processamento preocupa por custos.
- Desafio público tenta quebrar IA até 10 de fevereiro.
Nessa terça-feira (3), a empresa lançou os Classificadores Constitucionais, um mecanismo que, em testes internos, barrou 95% das tentativas de extrair respostas proibidas (como fabricar armas químicas).
O sistema, porém, chega com um custo: aumenta em 23,7% o consumo energético por consulta.
E agora, a empresa desafia o público a tentar derrubá-lo até 10 de fevereiro.
A aposta é ousada. Desde agosto, a Anthropic ofereceu R$ 87,23 mil (US$ 15 mil) por jailbreaks universais (ataques que driblam múltiplas restrições) em um programa de recompensas via HackerOne.
Durante 3 mil horas, 183 especialistas tentaram, mas sem sucesso, fazer o Claude responder a 10 perguntas proibidas.
Como funciona a “Constituição” do Claude
O segredo está em uma lista de regras em linguagem natural que define o que é permitido (ex.: listar remédios comuns) e proibido (ex.: obter produtos químicos restritos).
Com base nessa “Constituição“, a Anthropic usou o próprio Claude para gerar milhares de prompts sintéticos — incluindo perguntas camufladas em textos inofensivos ou codificadas em histórias fictícias.
Dois sistemas atuam em conjunto:
-
- Classificador de entrada: Analisa cada pergunta do usuário, buscando padrões de jailbreak conhecidos, como substituições de palavras ou mensagens escondidas.
- Classificador de saída: Monitora a resposta token por token (palavra por palavra), interrompendo o fluxo se detectar conteúdo proibido.
A empresa, no entanto, admite que o sistema não é infalível.
Em 0,38% dos casos, o Claude com Classificadores rejeitou perguntas inocentes — erro considerado “aceitável”.
Além disso, a sobrecarga computacional preocupa: cada consulta consome quase um quarto a mais de energia, o que pode encarecer o serviço.
Até 10 de fevereiro, qualquer usuário pode acessar o site da Anthropic e tentar fazer o Claude responder a oito perguntas sobre armas químicas.
O desafio, que já viraliza em fóruns de TI, é uma jogada de marketing e segurança.
A empresa afirmou estar ciente que novos métodos de jailbreak surgirão, mas que a Constituição do Claude é adaptável.
A eficácia dos Classificadores Constitucionais pode ditar padrões para a indústria — ou virar um caso de estudo sobre o custo da segurança na era da IA generativa.