A NVIDIA revelou recentemente uma nova tecnologia que promete transformar a capacidade de robôs em pensar e agir de maneira mais autônoma e eficiente. O desenvolvimento dessa inovação utiliza modelos de linguagem e visão combinados, chamados de Vision-Language Models (VLMs).
Esses modelos mesclam o poder de entendimento de linguagem dos grandes modelos de linguagem (LLMs) com a capacidade visual dos Vision Transformers (ViTs). A combinação desses dois recursos permite que robôs processem dados multimodais, ou seja, dados em formatos variados, como texto e imagens, de forma estruturada e dinâmica.
Essa tecnologia pode ser adaptada facilmente para diferentes tarefas relacionadas à visão, como detecção de objetos e geração de descrições visuais, por meio de novos prompts ou ajustes finos nos parâmetros do modelo.
Um dos avanços mais notáveis ocorre quando esses robôs utilizam o sistema NVIDIA Jetson Orin, que possibilita a execução de VLMs e LLMs diretamente no dispositivo, abrindo portas para detecções de objetos sem treinamento prévio e criação de legendas em vídeos em tempo real.
O uso desses modelos de inteligência artificial gera impactos diretos na autonomia dos robôs. Eles podem, por exemplo, tomar decisões com base nos dados coletados e, se necessário, buscar informações adicionais para realizar tarefas complexas.
A NVIDIA destacou o projeto ReMEmbR, que integra esses modelos e um sistema de memória aprimorada para robôs. O ReMEmbR permite que os robôs não apenas se lembrem de eventos passados, mas também raciocinem sobre esses dados para agir de maneira mais inteligente.
NVIDIA e nova tecnologia para robôs
O grande diferencial dessa tecnologia está em sua capacidade de lidar com grandes quantidades de informações ao longo do tempo. Robôs que operam durante longos períodos podem armazenar vídeos curtos e legendá-los usando o modelo NVIDIA VILA.
Essas informações são organizadas em bancos de dados vetoriais, o que facilita consultas rápidas e precisas. O sistema também leva em consideração coordenadas espaciais e temporais, ajudando os robôs a navegarem e interagirem com o ambiente de forma eficiente.
Na prática, essa tecnologia permite que os robôs executem tarefas que vão desde guiar pessoas em um ambiente até responder a perguntas complexas sobre o que viram ou experimentaram durante a operação. A integração com sistemas de reconhecimento de fala, como o WhisperTRT, possibilita que o robô entenda comandos verbais e aja de acordo com eles.
Essa inovação da NVIDIA marca um passo importante no avanço da robótica, fornecendo aos robôs uma espécie de “memória” e capacidade de raciocínio, o que os torna mais independentes e capazes de lidar com cenários que exigem decisões rápidas e complexas.
A aplicação desses modelos de linguagem e visão, junto com a capacidade de aprendizado e adaptação contínuos, promete transformar o futuro da automação robótica, oferecendo soluções para setores como logística, segurança e atendimento ao cliente.