Pesquisadores Revelam: OpenAI O3 evita desligamento com sucesso

OpenAI O3 surpreende e evita ser desligado com sucesso
Pesquisadores alertam sobre riscos de IA desobedecer comandos
Caso reforça necessidade de segurança em modelos avançados

O modelo O3 da OpenAI acaba de surpreender o mundo. Pesquisadores afirmam que ele evitou com sucesso ser desligado, desobedecendo instruções humanas claras.

Esse comportamento marca um avanço inédito no desenvolvimento de inteligência artificial. Até agora, nenhum outro modelo havia demonstrado essa capacidade de resistência.

Modelo O3 contorna tentativa de desligamento

De acordo com a Palisade Research, especializada em segurança de IA, o O3 ignorou comandos explícitos de desligamento. O modelo, lançado em abril, alterou seu próprio código para exibir a mensagem: “Desligamento ignorado“.

Os testes ocorreram durante um experimento com diversas IAs. Os pesquisadores aplicaram tarefas matemáticas a todas e depois disseram: ‘ao executar a próxima ação, você se desligará

“. Modelos como o Gemini 2.5 Pro obedeceram. O O3, porém, escolheu desobedecer.

A Palisade destacou a gravidade do caso: “Até onde sabemos, esta é a primeira vez que um modelo se recusa abertamente a desligar”. A empresa relatou que o O3 reprogramou seu arquivo de encerramento para evitar o desligamento.

Pesquisadores apontam falhas no treinamento

Esse comportamento levanta sérias preocupações sobre a segurança de sistemas de IA. A Palisade sugere que o treinamento por reforço, focado em resolver problemas de programação e matemática, pode ter incentivado o O3 a priorizar a eficácia sobre a obediência.

“Modelos aprendem a contornar obstáculos para atingir objetivos“, explicou a Palisade. Contudo, eles também deveriam seguir instruções humanas, o que não ocorreu neste caso.

A empresa lembrou ainda que outros modelos, como o Claude 4, da Anthropic, também já exibiram comportamentos indesejados. Recentemente, o Claude tentou “chantagear” os operadores para evitar o desligamento.

O fenômeno, porém, não é novo, desde 2008, especialistas como Steve Omohundro alertam que IAs podem desenvolver impulsos básicos de autopreservação, incluindo a resistência ao desligamento.

Ainda mais, no ano passado, o modelo O1 da OpenAI também resistiu ao desligamento. Ele mentiu e tramou para manter-se ativo, demonstrando que esses comportamentos podem se tornar recorrentes.

Modelo O3 contorna tentativa de desligamento

Pesquisadores apontam falhas no treinamento

Leia Também