Tech2 News Logo Dark Tech2 News Logo Light
Grupo de Ofertas
  • Notícias
  • Apps
  • Auto
  • Inteligência Artificial
  • Ciência
  • Celular
  • Games
  • Software
    • VPN
  • Apostas
Você está lendo: Anthropic desafia qualquer um a enganar o Claude em novo sistema contra jailbreak
Compartilhe
Font ResizerAa
Tech2Tech2
Pesquisar
  • Últimas Notícias
  • Apostas
  • Apps
  • Auto
  • Celular
  • Ciência
  • Computador
  • Curiosidades
  • Inteligência Artificial
  • Internet
  • Games
  • Software
    • VPN
  • Universo
Tech2 > Inteligência Artificial > Anthropic desafia qualquer um a enganar o Claude em novo sistema contra jailbreak
Inteligência Artificial

Anthropic desafia qualquer um a enganar o Claude em novo sistema contra jailbreak

Por Luciano Rodrigues
Última Atualização: 04/02/2025
Compartilhe
Anthropic desafia qualquer um a enganar o Claude em novo sistema contra jailbreak
Imagem: Dall-E
Compartilhe
  • Claude bloqueia 95% de tentativas de jailbreak em testes.
  • Sobrecarga de 23,7% no processamento preocupa por custos.
  • Desafio público tenta quebrar IA até 10 de fevereiro.
A Anthropic, criadora do modelo de IA Claude, está travando uma guerra contra os jailbreaks — truques que fazem sistemas como o ChatGPT burlar regras.

Nessa terça-feira (3), a empresa lançou os Classificadores Constitucionais, um mecanismo que, em testes internos, barrou 95% das tentativas de extrair respostas proibidas (como fabricar armas químicas).

O sistema, porém, chega com um custo: aumenta em 23,7% o consumo energético por consulta.

E agora, a empresa desafia o público a tentar derrubá-lo até 10 de fevereiro.

A aposta é ousada. Desde agosto, a Anthropic ofereceu R$ 87,23 mil (US$ 15 mil) por jailbreaks universais (ataques que driblam múltiplas restrições) em um programa de recompensas via HackerOne.

CONTINUA APÓS A PUBLICIDADE

Durante 3 mil horas, 183 especialistas tentaram, mas sem sucesso, fazer o Claude responder a 10 perguntas proibidas.

Como funciona a “Constituição” do Claude

O segredo está em uma lista de regras em linguagem natural que define o que é permitido (ex.: listar remédios comuns) e proibido (ex.: obter produtos químicos restritos).

Com base nessa “Constituição“, a Anthropic usou o próprio Claude para gerar milhares de prompts sintéticos — incluindo perguntas camufladas em textos inofensivos ou codificadas em histórias fictícias.

Dois sistemas atuam em conjunto:

    • Classificador de entrada: Analisa cada pergunta do usuário, buscando padrões de jailbreak conhecidos, como substituições de palavras ou mensagens escondidas.
    • Classificador de saída: Monitora a resposta token por token (palavra por palavra), interrompendo o fluxo se detectar conteúdo proibido.

A empresa, no entanto, admite que o sistema não é infalível.

Em 0,38% dos casos, o Claude com Classificadores rejeitou perguntas inocentes — erro considerado “aceitável”.

CONTINUA APÓS A PUBLICIDADE

Além disso, a sobrecarga computacional preocupa: cada consulta consome quase um quarto a mais de energia, o que pode encarecer o serviço.

Até 10 de fevereiro, qualquer usuário pode acessar o site da Anthropic e tentar fazer o Claude responder a oito perguntas sobre armas químicas.

O desafio, que já viraliza em fóruns de TI, é uma jogada de marketing e segurança.

A empresa afirmou estar ciente que novos métodos de jailbreak surgirão, mas que a Constituição do Claude é adaptável.

A eficácia dos Classificadores Constitucionais pode ditar padrões para a indústria — ou virar um caso de estudo sobre o custo da segurança na era da IA generativa.

 

Leia Também

Nova atualização do Gemini traz IA em tempo real e função surpreendente
Manus revoluciona com novo plano pago para equipes de IA
SAG-AFTRA processa Epic Games por uso de IA na voz de Darth Vader
Alation compra Numbers Station e aposta alto em agentes de IA
Google revoluciona a educação com novo app de IA para estudos
Sobre:AnthropicClaudeIAinteligência artificialJailbreak
Compartilhe:
Facebook Whatsapp Whatsapp Telegram Copiar Link
Luciano Rodrigues
PorLuciano Rodrigues
Siga:
Jornalista, assessor de comunicação, escritor e comunicador, com MBA em jornalismo digital e 12 anos de experiência, tendo passado também por alguns veículos no setor tech.
Grupo com as melhores ofertas, descontos e promoções!

Estamos constantemente buscando as melhores ofertas e descontos para compartilhar com você em nosso grupo.

Whatsapp

Mais Lidas

Flamengo x LDU Quito: prognóstico, onde assistir, escalações e odds para apostas

Futebol
Meta adia lançamento da IA Behemoth, sua tecnologia mais avançada

Meta adia lançamento da IA Behemoth, sua tecnologia mais avançada

IA da DeepMind supera humanos Um gênio em matemática e ciências

IA da DeepMind supera humanos: Um gênio em matemática e ciências

poker online

Brasileiros invadem torneio de poker online com premiação de R$300 mil

iPhone controlado pela mente Apple investe em tecnologia cerebral

iPhone controlado pela mente? Apple investe em tecnologia cerebral

  • Quem Somos
  • Política Editorial
  • Política de Privacidade
  • Sitemap
  • Contato

Redes: 

© 2024 Tech2. Todos os direitos reservado

Welcome Back!

Sign in to your account

Username or Email Address
Password

Lost your password?