O Google encontrou uma nova maneira de demonstrar as capacidades de seu modelo de Inteligência Artificial, a Gemini, utilizando um robô em um cenário prático.
Este robô pertence à extinta divisão de robôs da empresa, Everybody Robots Division, mas ainda está operacional e foi equipado com o modelo Gemini para executar tarefas e responder a comandos no ambiente do escritório DeepMind.
Para mostrar a funcionalidade do Gemini, o Google recorreu aos modelos de linguagem de visão (VLMs), que são treinados com imagens, vídeos e textos, o que permite respostas a perguntas e realização de tarefas que exigem percepção visual e contextual.
Em um vídeo demonstrativo, um funcionário do Google solicita ao robô que o leve a um lugar para desenhar. O robô, após um momento de processamento, conduz o funcionário até um quadro branco.
Em outra demonstração, o robô é instruído a seguir as direções desenhadas em um mapa no quadro branco para chegar a uma “Área Azul”. O robô segue as instruções e, ao final, anuncia que completou a tarefa com sucesso.
Essa demonstração é um exemplo do potencial do modelo Gemini em integrar e aplicar a percepção visual com comandos linguísticos, destacando o avanço do Google em tecnologias de IA e robótica.
- Leia também: 60% dos apostadores no Brasil já perderam dinheiro em apostas esportivas e comprometeram o orçamento do mês
Gemini tenta apresentar diferencial dos concorrentes
Comparado a outras IAs disponíveis no mercado, como GPT-4 da OpenAI, Watson da IBM e Azure AI da Microsoft, o Gemini se destaca pela integração de percepção visual com capacidades linguísticas.
Enquanto o GPT-4 é altamente eficiente em processamento de linguagem natural e pode gerar textos e respostas com base em vastos conjuntos de dados textuais, o Watson é amplamente utilizado em análise de dados e suporte a decisões empresariais, e o Azure AI oferece uma ampla gama de serviços, incluindo reconhecimento de imagens e análise de textos.
O diferencial do Gemini é sua capacidade de combinar visão computacional com processamento de linguagem natural, permitindo que robôs realizem tarefas complexas que requerem a interpretação de informações visuais e textuais simultaneamente.
Isso abre novas possibilidades para aplicações em robótica, onde a interação entre máquinas e o ambiente físico é crucial.
Em comparação, as outras IAs mencionadas são mais focadas em aplicações específicas de linguagem ou análise de dados, enquanto o Gemini oferece uma abordagem mais holística e integrada.
Essas inovações demonstram como o Google está na vanguarda da tecnologia de IA, oferecendo soluções que combinam múltiplas formas de inteligência para criar robôs mais inteligentes e capazes de interagir de maneira mais natural com os humanos.
- Leia também: Seu próximo mordomo em um hotel pode ser um robô