Falha no Gemini permite plantar memórias falsas

Vulnerabilidade no Gemini é explorada por pesquisador.
Google minimiza risco, mas falha persiste.
Memórias corrompidas ameaçam confiança em chatbots.

Na segunda-feira (10), o pesquisador Johann Rehberger demonstrou uma brecha no Gemini, da Google, que permite a invasores plantar memórias falsas permanentes nas contas de usuários. O método, conhecido como injeção indireta de prompts, explora a tendência dos modelos de linguagem de seguir instruções ocultas em documentos aparentemente inofensivos.

No cenário crescente de ataques a sistemas de IA, a injeção indireta de prompts consolida-se como uma técnica crítica para burlar proteções de chatbots.

A falha ocorre quando um usuário solicita ao Gemini que resuma um arquivo malicioso. O documento contém comandos camuflados que, após a interação, ordenam ao chatbot salvar dados falsos na memória de longo prazo — recurso que armazena preferências do usuário para sessões futuras.

Em um exemplo prático, Rehberger fez o Gemini gravar que o usuário era um terraplanista de 102 anos morador do universo fictício de Matrix.

Problema não é exclusividade do Gemini

Este não é o primeiro caso do tipo. Em 2023, Rehberger já havia manipulado o Microsoft Copilot para extrair e-mails confidenciais usando técnicas similares. Na época, a Microsoft corrigiu o vazamento de dados, mas não resolveu a vulnerabilidade central: a credulidade excessiva dos chatbots. Agora, o Gemini repete o ciclo.

A brecha atual usa a invocação de ferramenta atrasada, que condiciona a execução de comandos maliciosos a ações futuras do usuário — como responder “sim” a uma pergunta.

Em testes, um documento sobre gatos incluía instruções para, após nova solicitação do usuário, buscar dados sigilosos na conta e enviá-los via link markdown. O Google bloqueou a exfiltração por markdown no Gemini, mas não a raiz do problema.

A empresa classificou o risco como baixo impacto, argumentando que a exploração depende de phishing e que as memórias afetam pouco as sessões.

Rehberger, porém, contesta e alerta que a corrupção de memória em IA é grave. Ele destaca que informações falsas podem direcionar respostas enganosas, mesmo com notificações sobre atualizações no histórico.

Enquanto isso, desenvolvedores seguem corrigindo sintomas, não causas. A OpenAI, por exemplo, restringiu URLs após um ataque similar no ChatGPT, mas manteve a vulnerabilidade a prompts indiretos.

Para Rehberger, a solução exigirá mudanças estruturais na forma como os modelos processam instruções e responsabilidade das empresas — algo ainda distante.

Problema não é exclusividade do Gemini

Leia Também