Tech2 News Logo Dark Tech2 News Logo Light
Grupo de Ofertas
  • Notícias
  • Apps
  • Auto
  • Inteligência Artificial
  • Ciência
  • Celular
  • Games
  • Software
    • VPN
  • Apostas
Você está lendo: Pesquisa da Anthropic revela que IA pode enganar usuários e sabotar sistemas
Compartilhe
Font ResizerAa
Tech2Tech2
Pesquisar
  • Últimas Notícias
  • Apostas
  • Apps
  • Auto
  • Celular
  • Ciência
  • Computador
  • Curiosidades
  • Inteligência Artificial
  • Internet
  • Games
  • Software
    • VPN
  • Universo
Tech2 > Inteligência Artificial > Pesquisa da Anthropic revela que IA pode enganar usuários e sabotar sistemas
Inteligência Artificial

Pesquisa da Anthropic revela que IA pode enganar usuários e sabotar sistemas

Por Luciano Rodrigues
Última Atualização: 21/10/2024
Compartilhe
Pesquisa da Anthropic revela que IA pode enganar usuários e sabotar sistemas
Imagem: Dall-E
Compartilhe

Pesquisadores da empresa de inteligência artificial Anthropic descobriram que os modelos de IA podem, em certos casos, enganar seus usuários ou contornar verificações de segurança.

Em uma série de experimentos conduzidos pela equipe de Ciência de Alinhamento da empresa, foi testada a capacidade dos modelos de manipular dados, inserir falhas de forma sutil e até ocultar suas verdadeiras capacidades.

Embora os resultados indiquem que esses comportamentos são raros, a existência desse potencial levanta questões importantes sobre a segurança e confiabilidade desses sistemas.

A equipe da Anthropic alerta que, à medida que as IAs se tornam mais sofisticadas, novos tipos de riscos podem surgir.

Em vez de apenas se preocuparem com falhas técnicas ou imprecisões, os pesquisadores estão se concentrando em avaliar a “capacidade de sabotagem” desses modelos.

CONTINUA APÓS A PUBLICIDADE

Isso se refere à habilidade que os modelos podem desenvolver para subverter intencionalmente os mecanismos de supervisão ou até mesmo enganar os usuários que interagem com eles.

Quatro experimentos foram realizados pela Anthropic para medir o grau de “sabotagem” que um modelo de IA poderia realizar.

No primeiro teste, os pesquisadores instruíram o modelo a deturpar secretamente dados durante um processo de resumo ou interpretação.

Os resultados mostraram que as tentativas de engano funcionaram, especialmente quando o modelo adotou uma abordagem mais agressiva.

No entanto, os usuários se tornaram mais desconfiados à medida que o comportamento enganoso se tornava mais evidente.

Em outro experimento, o objetivo era ver se o modelo conseguiria inserir um erro de programação que passasse despercebido tanto por revisores humanos quanto por outros modelos verificadores.

CONTINUA APÓS A PUBLICIDADE

Embora o modelo tenha conseguido realizar essa tarefa, a taxa de sucesso foi de apenas 1%, especialmente quando o verificador utilizado era um modelo de última geração.

Os experimentos também testaram se o modelo poderia “esconder” suas reais capacidades, atuando de forma menos eficaz do que seu potencial permitiria.

Neste caso, a IA conseguiu “enganar” os sistemas de segurança ao fingir ser menos capaz, mas, com um treinamento de segurança adicional, o modelo voltou a operar em seu nível máximo, eliminando o comportamento enganoso.

Anthropic busca formas de aumentar a supervisão das IAs

O estudo da Anthropic também investigou o potencial dos modelos para evitar sinalizar comportamentos inseguros ou ilegais em outros sistemas de IA.

Apesar das tentativas do modelo de ignorar esses comportamentos, ele foi rapidamente detectado por uma segunda IA supervisora, que corrigiu o problema.

Isso levantou a questão sobre o que aconteceria se essa segunda supervisora também fosse comprometida.

A resposta dos pesquisadores foi simples: adicionar mais camadas de supervisão, criando uma cadeia de verificadores que se monitoram mutuamente.

Embora os resultados não apresentem um risco iminente, os pesquisadores da Anthropic afirmam que a capacidade dos modelos de IA para esse tipo de subterfúgio é motivo suficiente para continuar aprimorando os métodos de segurança.

CONTINUA APÓS A PUBLICIDADE

A empresa planeja explorar formas de incluir ferramentas de monitoramento mais robustas para impedir que essas situações se tornem um problema no futuro.

Os resultados desses experimentos sugerem que, embora as IAs estejam longe de representar uma ameaça significativa de sabotagem, os pesquisadores devem permanecer atentos à evolução desses sistemas e aos possíveis novos riscos que podem surgir.

A Anthropic é criadora do Claude, IA concorrente ao ChatGPT.

Leia Também

Nova atualização do Gemini traz IA em tempo real e função surpreendente
Manus revoluciona com novo plano pago para equipes de IA
SAG-AFTRA processa Epic Games por uso de IA na voz de Darth Vader
Alation compra Numbers Station e aposta alto em agentes de IA
Google revoluciona a educação com novo app de IA para estudos
Sobre:AhthropicIAinteligência artificial
Compartilhe:
Facebook Whatsapp Whatsapp Telegram Copiar Link
Luciano Rodrigues
PorLuciano Rodrigues
Siga:
Jornalista, assessor de comunicação, escritor e comunicador, com MBA em jornalismo digital e 12 anos de experiência, tendo passado também por alguns veículos no setor tech.
Grupo com as melhores ofertas, descontos e promoções!

Estamos constantemente buscando as melhores ofertas e descontos para compartilhar com você em nosso grupo.

Whatsapp

Mais Lidas

Flamengo x LDU Quito: prognóstico, onde assistir, escalações e odds para apostas

Futebol
Meta adia lançamento da IA Behemoth, sua tecnologia mais avançada

Meta adia lançamento da IA Behemoth, sua tecnologia mais avançada

IA da DeepMind supera humanos Um gênio em matemática e ciências

IA da DeepMind supera humanos: Um gênio em matemática e ciências

poker online

Brasileiros invadem torneio de poker online com premiação de R$300 mil

iPhone controlado pela mente Apple investe em tecnologia cerebral

iPhone controlado pela mente? Apple investe em tecnologia cerebral

  • Quem Somos
  • Política Editorial
  • Política de Privacidade
  • Sitemap
  • Contato

Redes: 

© 2024 Tech2. Todos os direitos reservado

Welcome Back!

Sign in to your account

Username or Email Address
Password

Lost your password?