O Google está disponibilizando, para desenvolvedores e empresas, o SynthID Text, uma ferramenta que permite adicionar marcas d’água e detectar conteúdos gerados por inteligência artificial.
A tecnologia pode ser acessada gratuitamente e já está disponível na plataforma de IA Hugging Face e no Responsible GenAI Toolkit do Google.
A empresa anunciou que o SynthID Text está disponível como código aberto, permitindo que desenvolvedores utilizem a ferramenta para identificar se um texto foi criado por IA.
Com isso, o Google pretende fornecer uma solução eficiente para reconhecer o conteúdo gerado por suas ferramentas, ajudando a combater desinformação e aumentar a transparência.
O Google não é a única empresa a explorar tecnologias de marca d’água para textos gerados por IA.
A OpenAI também investiga métodos semelhantes, embora ainda não tenha lançado um produto específico.
Técnicas como essa podem ter um impacto significativo no combate à desinformação e à propagação de conteúdos falsos gerados automaticamente.
O uso dessa tecnologia pode ser cada vez mais requisitado por reguladores em todo o mundo. A China já exige que conteúdos gerados por IA contenham marca d’água, e estados como a Califórnia discutem medidas semelhantes.
A aplicação dessas medidas pode ser crucial, considerando que, segundo a União Europeia, até 2026, 90% do conteúdo online poderá ser gerado artificialmente.
Como o SynthID Text funciona
O funcionamento do SynthID Text baseia-se na modulação da probabilidade de tokens gerados por modelos de IA.
Quando um prompt é fornecido, os modelos de IA preveem tokens que seguem o anterior, atribuindo uma pontuação a cada um deles.
O SynthID Text insere informações adicionais nessas pontuações para criar uma espécie de marca d’água digital, que pode ser verificada posteriormente para determinar se o texto foi gerado por uma IA.
A ferramenta foi integrada aos modelos Gemini do Google e, segundo a empresa, não afeta a qualidade, precisão ou velocidade da geração de textos.
Além disso, o SynthID Text pode identificar textos mesmo que tenham sido editados ou parafraseados.
Porém, o Google reconhece que a tecnologia tem algumas limitações.
Textos curtos, conteúdos que foram reescritos ou traduzidos e respostas a perguntas factuais apresentam maior dificuldade para a identificação.
Em casos como esses, onde pouca variação é esperada, como a resposta para “Qual é a capital da França?”, a modulação de tokens é menos eficaz sem comprometer a precisão.