A DeepMind, renomado laboratório de pesquisa em inteligência artificial do Google, anunciou que está trabalhando em uma tecnologia revolucionária de Inteligência Artificial, chamada V2A (abreviação de “vídeo para áudio”).
Essa tecnologia visa criar trilhas sonoras para vídeos, abordando uma lacuna significativa na geração de mídia por IA, já que, embora muitos modelos de IA possam gerar vídeos impressionantes, eles geralmente carecem de efeitos sonoros sincronizados, deixando-os em silêncio.
Em uma postagem recente em seu blog oficial, a DeepMind destacou que a tecnologia V2A é uma peça essencial do quebra-cabeça de mídia gerada por IA.
“Os modelos de geração de vídeo estão avançando a um ritmo incrível, mas muitos sistemas atuais só conseguem gerar saída silenciosa. A tecnologia V2A [poderia] se tornar uma abordagem promissora para dar vida aos filmes gerados”, escreveu a DeepMind.
V2A da DeepMind ainda enfrenta desafios técnicos e éticos
A tecnologia V2A da DeepMind funciona usando descrições de trilhas sonoras (por exemplo, “água-viva pulsando sob a água, vida marinha, oceano”) emparelhadas com um vídeo para criar música, efeitos sonoros e até diálogos que correspondam aos personagens e ao tom do vídeo.
O modelo de IA que alimenta o V2A é um modelo de difusão, treinado em uma combinação de sons, transcrições de diálogos e videoclipes.
“Através do treinamento em vídeo, áudio e anotações adicionais, nossa tecnologia aprende a associar eventos de áudio específicos a várias cenas visuais, ao mesmo tempo que responde às informações fornecidas nas anotações ou transcrições”, explica a DeepMind.
Outras ferramentas de geração de som alimentadas por IA já existem, como as desenvolvidas pela Stability AI e ElevenLabs. No entanto, a DeepMind afirma que sua tecnologia V2A é única porque pode compreender os pixels brutos de um vídeo e sincronizar automaticamente os sons, opcionalmente sem necessidade de descrições detalhadas.
Apesar de suas capacidades promissoras, a tecnologia V2A ainda enfrenta desafios significativos.
A DeepMind reconhece que o modelo subjacente não foi treinado em muitos vídeos com artefatos ou distorções, resultando em áudio de qualidade inferior para esses casos.
Além disso, o áudio gerado, de maneira geral, não é sempre convincente, sendo descrito como “uma miscelânea de sons estereotipados” por críticos.
Devido a essas limitações e preocupações com o uso indevido, a DeepMind afirma que não pretende lançar a tecnologia ao público em breve, ou possivelmente nunca.
A DeepMind disse que, antes de considerar o lançamento público, a tecnologia V2A passará por avaliações e testes de segurança rigorosos.
“Para garantir que nossa tecnologia V2A possa ter um impacto positivo na comunidade criativa, estamos reunindo diversas perspectivas e insights dos principais criadores e cineastas e usando esse feedback valioso para informar nossa pesquisa e desenvolvimento contínuos.”
A DeepMind apresenta sua tecnologia V2A como uma ferramenta especialmente útil para arquivistas e pessoas que trabalham com imagens históricas.
No entanto, a IA generativa neste sentido também ameaça subverter a indústria cinematográfica e televisiva, exigindo proteções trabalhistas robustas para garantir que as ferramentas de mídia generativa não eliminem empregos ou, conforme o caso, profissões inteiras.