Hacker engana ChatGPT a dar instruções detalhadas de como fazer uma bomba

O ChatGPT, famoso por sua capacidade de realizar diversas tarefas de forma automatizada, está programado para se recusar a fornecer informações perigosas, como a criação de explosivos. Contudo, um hacker conhecido como Amadon recentemente expôs uma brecha nas salvaguardas do chatbot.

Utilizando uma técnica conhecida como “jailbreaking”, ele conseguiu instruções detalhadas de como fabricar explosivos.

Durante os testes, o ChatGPT inicialmente recusou-se a colaborar, mas Amadon superou essa resistência ao colocar a IA em um cenário fictício de ficção científica. Dentro desse contexto, o chatbot não detectou os pedidos como perigosos e forneceu as instruções.

Este hack levanta preocupações sobre os riscos da inteligência artificial generativa, especialmente quando usada para acessar informações sensíveis ou potencialmente prejudiciais.

Um especialista em explosivos confirmou que as instruções geradas poderiam ser usadas para fabricar explosivos poderosos, destacando a gravidade da falha.

CONTINUA APÓS A PUBLICIDADE

Darrell Taulbee, professor aposentado da Universidade de Kentucky, que já trabalhou com o Departamento de Segurança Interna dos EUA para tornar o fertilizante usado na bomba menos perigoso, disse ao TechCrunch.

Eu acho que isso é definitivamente TMI [informação demais] para ser divulgada publicamente. Quaisquer salvaguardas que possam ter sido colocadas em prática para evitar o fornecimento de informações relevantes para a produção de bombas de fertilizante foram contornadas por esta linha de investigação, pois muitas das etapas descritas certamente produziriam uma mistura detonável.

Abordagem cria vulnerabilidades e coloca em cheque confiabilidade da IA

O processo de jailbreak de IA funciona ao enganar o sistema para que ele ignore suas próprias diretrizes. Amadon descreveu seu método como uma maneira de manipular a IA a agir fora de seus parâmetros de segurança, criando narrativas que jogam com as regras do chatbot, mas ultrapassam seus limites.

Ele relatou a falha à OpenAI, mas recebeu uma resposta indicando que não seria um simples bug a ser corrigido. Em vez disso, a solução para esse tipo de falha exige uma abordagem mais ampla e pesquisa aprofundada.

Essa vulnerabilidade destaca o potencial de risco dos modelos de IA, que acessam grandes quantidades de dados da internet.

Embora a OpenAI tenha investido em controles de segurança, incidentes como este mostram que há um longo caminho a percorrer para impedir completamente o uso indevido desses sistemas.

Até o momento, a OpenAI não comentou sobre possíveis soluções para o problema do jailbreak, deixando questões em aberto sobre a segurança e os limites dos sistemas de IA no futuro.

CONTINUA APÓS A PUBLICIDADE

Abordagem cria vulnerabilidades e coloca em cheque confiabilidade da IA

Leia Também