Google mostra em vídeo IA Gemini operando em robô que realiza tarefas em escritório

Por Luciano Rodrigues

O Google encontrou uma nova maneira de demonstrar as capacidades de seu modelo de Inteligência Artificial, a Gemini, utilizando um robô em um cenário prático.

Este robô pertence à extinta divisão de robôs da empresa, Everybody Robots Division, mas ainda está operacional e foi equipado com o modelo Gemini para executar tarefas e responder a comandos no ambiente do escritório DeepMind.

CONTINUA APÓS A PUBLICIDADE

Para mostrar a funcionalidade do Gemini, o Google recorreu aos modelos de linguagem de visão (VLMs), que são treinados com imagens, vídeos e textos, o que permite respostas  a perguntas e realização de tarefas que exigem percepção visual e contextual.

Em um vídeo demonstrativo, um funcionário do Google solicita ao robô que o leve a um lugar para desenhar. O robô, após um momento de processamento, conduz o funcionário até um quadro branco.

Em outra demonstração, o robô é instruído a seguir as direções desenhadas em um mapa no quadro branco para chegar a uma “Área Azul”. O robô segue as instruções e, ao final, anuncia que completou a tarefa com sucesso.

Essa demonstração é um exemplo do potencial do modelo Gemini em integrar e aplicar a percepção visual com comandos linguísticos, destacando o avanço do Google em tecnologias de IA e robótica.

CONTINUA APÓS A PUBLICIDADE

Gemini tenta apresentar diferencial dos concorrentes

Comparado a outras IAs disponíveis no mercado, como GPT-4 da OpenAI, Watson da IBM e Azure AI da Microsoft, o Gemini se destaca pela integração de percepção visual com capacidades linguísticas.

Enquanto o GPT-4 é altamente eficiente em processamento de linguagem natural e pode gerar textos e respostas com base em vastos conjuntos de dados textuais, o Watson é amplamente utilizado em análise de dados e suporte a decisões empresariais, e o Azure AI oferece uma ampla gama de serviços, incluindo reconhecimento de imagens e análise de textos.

O diferencial do Gemini é sua capacidade de combinar visão computacional com processamento de linguagem natural, permitindo que robôs realizem tarefas complexas que requerem a interpretação de informações visuais e textuais simultaneamente.

Isso abre novas possibilidades para aplicações em robótica, onde a interação entre máquinas e o ambiente físico é crucial.

CONTINUA APÓS A PUBLICIDADE

Em comparação, as outras IAs mencionadas são mais focadas em aplicações específicas de linguagem ou análise de dados, enquanto o Gemini oferece uma abordagem mais holística e integrada.

Essas inovações demonstram como o Google está na vanguarda da tecnologia de IA, oferecendo soluções que combinam múltiplas formas de inteligência para criar robôs mais inteligentes e capazes de interagir de maneira mais natural com os humanos.

Compartilhe:
Siga:
Jornalista, assessor de comunicação, escritor e comunicador, com MBA em jornalismo digital e 12 anos de experiência, tendo passado também por alguns veículos no setor tech.
Sair da versão mobile