O Google DeepMind revelou o Genie 2, uma tecnologia avançada que promete transformar o treinamento e a avaliação de agentes de inteligência artificial.
A ferramenta gera ambientes 3D jogáveis e controláveis a partir de uma simples imagem de prompt, permitindo que tanto humanos quanto agentes de IA interajam nesses mundos.
O lançamento marca um avanço significativo na pesquisa de agentes incorporados e na criação de cenários virtuais ilimitados.
O Genie 2 representa uma evolução do Genie 1, expandindo suas capacidades para incluir ambientes tridimensionais com física realista, iluminação dinâmica e animação de personagens.
Pesquisadores podem usar o modelo para criar e explorar mundos diversificados, como florestas, cavernas ou cenários urbanos, simulando interações complexas.
A tecnologia também possibilita a geração de trajetórias contrafactuais, onde as ações iniciais divergem, criando resultados variados e oferecendo mais versatilidade nos treinamentos.
A criação se assemelha a que foi apresentada pela World Labs, que transforma ambientes 2D em 3D exploráveis.
Genie 2 pode criar mundos ilimitados
Com o Genie 2, desenvolvedores e pesquisadores podem construir ambientes interativos que simulam ações como abrir portas, pular obstáculos e explorar cenários detalhados.
A tecnologia utiliza sensores virtuais para responder a comandos de teclado e mouse, identificando o personagem principal e ajustando o ambiente de acordo com as ações.
Essa abordagem permite treinar agentes de IA para realizar tarefas específicas, como explorar florestas, atravessar túneis ou resolver desafios em ambientes complexos.
Além de criar mundos imersivos, o Genie 2 facilita a prototipagem rápida de experiências interativas, oferecendo uma ferramenta poderosa para artistas e designers.
Com base em prompts gerados pelo modelo de texto para imagem Imagen 3, usuários podem descrever um cenário e transformá-lo em um ambiente jogável.
Por exemplo, um único prompt pode renderizar um mundo com dragões ou uma paisagem alienígena, enquanto outro detalha interações precisas, como estourar balões ou disparar explosivos.
O modelo utiliza aprendizado profundo e difusão latente autorregressiva para criar simulações em tempo real.
Essa arquitetura avançada assegura mundos consistentes e respostas precisas às ações, enquanto mantém a qualidade visual e a integridade das interações.
No entanto, jogos criados com Genie 2 não seriam tão divertidos, realmente, já que eles apagariam seu progresso a cada minuto ou mais.
É por isso que a DeepMind está posicionando o modelo mais como uma ferramenta de pesquisa e criatividade — uma ferramenta para prototipar “experiências interativas” e avaliar agentes de IA .
a.