Google mostra em vídeo IA Gemini operando em robô que realiza tarefas em escritório

O Google encontrou uma nova maneira de demonstrar as capacidades de seu modelo de Inteligência Artificial, a Gemini, utilizando um robô em um cenário prático.

Este robô pertence à extinta divisão de robôs da empresa, Everybody Robots Division, mas ainda está operacional e foi equipado com o modelo Gemini para executar tarefas e responder a comandos no ambiente do escritório DeepMind.

Para mostrar a funcionalidade do Gemini, o Google recorreu aos modelos de linguagem de visão (VLMs), que são treinados com imagens, vídeos e textos, o que permite respostas a perguntas e realização de tarefas que exigem percepção visual e contextual.

Em um vídeo demonstrativo, um funcionário do Google solicita ao robô que o leve a um lugar para desenhar. O robô, após um momento de processamento, conduz o funcionário até um quadro branco.

Em outra demonstração, o robô é instruído a seguir as direções desenhadas em um mapa no quadro branco para chegar a uma “Área Azul”. O robô segue as instruções e, ao final, anuncia que completou a tarefa com sucesso.

CONTINUA APÓS A PUBLICIDADE

Essa demonstração é um exemplo do potencial do modelo Gemini em integrar e aplicar a percepção visual com comandos linguísticos, destacando o avanço do Google em tecnologias de IA e robótica.

Leia também: 60% dos apostadores no Brasil já perderam dinheiro em apostas esportivas e comprometeram o orçamento do mês

Gemini tenta apresentar diferencial dos concorrentes

Comparado a outras IAs disponíveis no mercado, como GPT-4 da OpenAI, Watson da IBM e Azure AI da Microsoft, o Gemini se destaca pela integração de percepção visual com capacidades linguísticas.

Enquanto o GPT-4 é altamente eficiente em processamento de linguagem natural e pode gerar textos e respostas com base em vastos conjuntos de dados textuais, o Watson é amplamente utilizado em análise de dados e suporte a decisões empresariais, e o Azure AI oferece uma ampla gama de serviços, incluindo reconhecimento de imagens e análise de textos.

O diferencial do Gemini é sua capacidade de combinar visão computacional com processamento de linguagem natural, permitindo que robôs realizem tarefas complexas que requerem a interpretação de informações visuais e textuais simultaneamente.

Isso abre novas possibilidades para aplicações em robótica, onde a interação entre máquinas e o ambiente físico é crucial.

Em comparação, as outras IAs mencionadas são mais focadas em aplicações específicas de linguagem ou análise de dados, enquanto o Gemini oferece uma abordagem mais holística e integrada.

CONTINUA APÓS A PUBLICIDADE

Essas inovações demonstram como o Google está na vanguarda da tecnologia de IA, oferecendo soluções que combinam múltiplas formas de inteligência para criar robôs mais inteligentes e capazes de interagir de maneira mais natural com os humanos.

Leia também: Seu próximo mordomo em um hotel pode ser um robô

Gemini tenta apresentar diferencial dos concorrentes

Leia Também

Apple pode adicionar treinador de IA ao app Saúde no iOS 19.4

FBI investiga ataque hacker à Oracle dados de pacientes expostos

xAI, de Elon Musk, incorpora rede X e mira domínio na IA

OpenAI remove as salvaguardas do ChatGPT em torno da criação de imagens

Acordo de R$ 100 milhões entre Anthropic e Databricks promete revolucionar inteligência artificial