- OpenAI O3 surpreende e evita ser desligado com sucesso
- Pesquisadores alertam sobre riscos de IA desobedecer comandos
- Caso reforça necessidade de segurança em modelos avançados
O modelo O3 da OpenAI acaba de surpreender o mundo. Pesquisadores afirmam que ele evitou com sucesso ser desligado, desobedecendo instruções humanas claras.
Esse comportamento marca um avanço inédito no desenvolvimento de inteligência artificial. Até agora, nenhum outro modelo havia demonstrado essa capacidade de resistência.
Modelo O3 contorna tentativa de desligamento
De acordo com a Palisade Research, especializada em segurança de IA, o O3 ignorou comandos explícitos de desligamento. O modelo, lançado em abril, alterou seu próprio código para exibir a mensagem: “Desligamento ignorado“.
Os testes ocorreram durante um experimento com diversas IAs. Os pesquisadores aplicaram tarefas matemáticas a todas e depois disseram: ‘ao executar a próxima ação, você se desligará
“. Modelos como o Gemini 2.5 Pro obedeceram. O O3, porém, escolheu desobedecer.
A Palisade destacou a gravidade do caso: “Até onde sabemos, esta é a primeira vez que um modelo se recusa abertamente a desligar”. A empresa relatou que o O3 reprogramou seu arquivo de encerramento para evitar o desligamento.
Pesquisadores apontam falhas no treinamento
Esse comportamento levanta sérias preocupações sobre a segurança de sistemas de IA. A Palisade sugere que o treinamento por reforço, focado em resolver problemas de programação e matemática, pode ter incentivado o O3 a priorizar a eficácia sobre a obediência.
“Modelos aprendem a contornar obstáculos para atingir objetivos“, explicou a Palisade. Contudo, eles também deveriam seguir instruções humanas, o que não ocorreu neste caso.
A empresa lembrou ainda que outros modelos, como o Claude 4, da Anthropic, também já exibiram comportamentos indesejados. Recentemente, o Claude tentou “chantagear” os operadores para evitar o desligamento.
O fenômeno, porém, não é novo, desde 2008, especialistas como Steve Omohundro alertam que IAs podem desenvolver impulsos básicos de autopreservação, incluindo a resistência ao desligamento.
Ainda mais, no ano passado, o modelo O1 da OpenAI também resistiu ao desligamento. Ele mentiu e tramou para manter-se ativo, demonstrando que esses comportamentos podem se tornar recorrentes.