- Genie 3 cria ambientes 3D realistas com memória e física coerente.
- Modelo simula interações complexas com base em simples comandos.
- DeepMind vê o Genie 3 como base para alcançar a AGI.
O Google DeepMind revelou o Genie 3, um modelo de mundo interativo capaz de criar ambientes 3D coerentes e realistas a partir de prompts de texto. A ferramenta representa um avanço técnico significativo. Além disso, pode se tornar a base do treinamento de agentes de uso geral rumo à inteligência artificial geral (AGI).
O DeepMind anunciou oficialmente nessa terça-feira (5), em postagem no site oficial.
A diretora de pesquisa da DeepMind, Shlomi Fruchter, em entrevista ao TechCrunch, afirmou que o Genie 3 é o primeiro modelo de mundo interativo de uso geral em tempo real. O modelo vai além de ambientes pré-definidos, sendo capaz de gerar mundos fotorrealistas ou puramente imaginários, com tudo o que há entre esses extremos.
Ainda em fase de pesquisa, o Genie 3 se baseia em tecnologias anteriores, como o Genie 2 e o modelo de vídeo Veo 3, para criar simulações que respeitam as leis da física. Ele gera ambientes em resolução 720p e 24 quadros por segundo, com duração de até alguns minutos. Além disso, pode modificar o mundo com eventos baseados em comandos de texto.
Genie 3 visa treinar agentes rumo à inteligência geral
O grande diferencial do Genie 3 está em sua capacidade emergente de lembrar o que foi gerado antes. De acordo com Fruchter, isso não foi programado explicitamente:
O modelo é autorregressivo […] precisa analisar o que foi gerado antes para decidir o que acontecerá em seguida.
Essa memória integrada garante consistência física e permite que o modelo aprenda padrões do mundo real, como objetos em queda ou reações esperadas a certos movimentos.
Assim como o Veo, ele não depende de um mecanismo de física codificado. Em vez disso, ele aprende sozinho como o mundo funciona. De acordo com o pesquisador Jack Parker-Holder, isso representa um passo essencial para a criação de agentes mais avançados:
Acreditamos que os modelos mundiais são essenciais no caminho para a AGI, especialmente para agentes incorporados, onde simular cenários do mundo real é particularmente desafiador.
O mercado já considera o Genie 3 um ambiente ideal para treinar IA autônoma, mesmo que ele ainda ofereça apenas alguns minutos de simulação e interação limitada entre agentes. Ele permite que agentes planejem, testem hipóteses e aprendam com seus erros, de forma semelhante aos humanos.
Com o Genie 3, a DeepMind se aproxima de um marco histórico: ensinar máquinas a explorar e entender o mundo com autonomia.
