Pesquisadores da empresa de inteligência artificial Anthropic descobriram que os modelos de IA podem, em certos casos, enganar seus usuários ou contornar verificações de segurança.
Em uma série de experimentos conduzidos pela equipe de Ciência de Alinhamento da empresa, foi testada a capacidade dos modelos de manipular dados, inserir falhas de forma sutil e até ocultar suas verdadeiras capacidades.
Embora os resultados indiquem que esses comportamentos são raros, a existência desse potencial levanta questões importantes sobre a segurança e confiabilidade desses sistemas.
A equipe da Anthropic alerta que, à medida que as IAs se tornam mais sofisticadas, novos tipos de riscos podem surgir.
Em vez de apenas se preocuparem com falhas técnicas ou imprecisões, os pesquisadores estão se concentrando em avaliar a “capacidade de sabotagem” desses modelos.
Isso se refere à habilidade que os modelos podem desenvolver para subverter intencionalmente os mecanismos de supervisão ou até mesmo enganar os usuários que interagem com eles.
Quatro experimentos foram realizados pela Anthropic para medir o grau de “sabotagem” que um modelo de IA poderia realizar.
No primeiro teste, os pesquisadores instruíram o modelo a deturpar secretamente dados durante um processo de resumo ou interpretação.
Os resultados mostraram que as tentativas de engano funcionaram, especialmente quando o modelo adotou uma abordagem mais agressiva.
No entanto, os usuários se tornaram mais desconfiados à medida que o comportamento enganoso se tornava mais evidente.
Em outro experimento, o objetivo era ver se o modelo conseguiria inserir um erro de programação que passasse despercebido tanto por revisores humanos quanto por outros modelos verificadores.
Embora o modelo tenha conseguido realizar essa tarefa, a taxa de sucesso foi de apenas 1%, especialmente quando o verificador utilizado era um modelo de última geração.
Os experimentos também testaram se o modelo poderia “esconder” suas reais capacidades, atuando de forma menos eficaz do que seu potencial permitiria.
Neste caso, a IA conseguiu “enganar” os sistemas de segurança ao fingir ser menos capaz, mas, com um treinamento de segurança adicional, o modelo voltou a operar em seu nível máximo, eliminando o comportamento enganoso.
Anthropic busca formas de aumentar a supervisão das IAs
O estudo da Anthropic também investigou o potencial dos modelos para evitar sinalizar comportamentos inseguros ou ilegais em outros sistemas de IA.
Apesar das tentativas do modelo de ignorar esses comportamentos, ele foi rapidamente detectado por uma segunda IA supervisora, que corrigiu o problema.
Isso levantou a questão sobre o que aconteceria se essa segunda supervisora também fosse comprometida.
A resposta dos pesquisadores foi simples: adicionar mais camadas de supervisão, criando uma cadeia de verificadores que se monitoram mutuamente.
Embora os resultados não apresentem um risco iminente, os pesquisadores da Anthropic afirmam que a capacidade dos modelos de IA para esse tipo de subterfúgio é motivo suficiente para continuar aprimorando os métodos de segurança.
A empresa planeja explorar formas de incluir ferramentas de monitoramento mais robustas para impedir que essas situações se tornem um problema no futuro.
Os resultados desses experimentos sugerem que, embora as IAs estejam longe de representar uma ameaça significativa de sabotagem, os pesquisadores devem permanecer atentos à evolução desses sistemas e aos possíveis novos riscos que podem surgir.
A Anthropic é criadora do Claude, IA concorrente ao ChatGPT.