A OpenAI lançou oficialmente o recurso de visão em tempo real para o Advanced Voice Mode do ChatGPT, anunciado há meses.
A novidade, voltada para assinantes dos planos Plus, Team ou Pro, permite que o ChatGPT analise objetos e telas. A OpenIA promete que isso ocorra quase instantaneamente ao ser acionado por meio do aplicativo oficial.
Com a atualização, os usuários podem apontar a câmera de seus dispositivos para objetos físicos e fazer perguntas sobre eles. A resposta, por sua vez, deve ter a mesma agilidade que já conhecemos ao utilizar o ChatGPT.
Além disso, a funcionalidade permite entender conteúdos exibidos na tela de dispositivos, oferecendo explicações sobre menus de configurações ou soluções para problemas de matemática diretamente por meio do compartilhamento de tela. A solução, sobretudo, visa expandir as formas de usar a IA.
Para ativar o novo recurso, basta tocar no ícone de voz próximo à barra de bate-papo. Depois, o ícone de vídeo no canto inferior esquerdo ficará ativo para, assim, iniciar a análise visual.
O compartilhamento de tela pode ser habilitado no menu de três pontos.
A OpenAI planeja completar a implementação do recurso ao longo da próxima semana. No entanto, nem todos os usuários terão acesso imediato.
Assinantes do ChatGPT Enterprise e Edu só poderão utilizar o recurso em janeiro. Já usuários localizados na União Europeia, Suíça, Islândia, Noruega e Liechtenstein aguardam uma data de lançamento ainda indefinida.
Advanced Voice Mode apresenta potencial e limitações
Em uma recente exibição no programa “60 Minutes” da CNN, o Advanced Voice Mode com visão demonstrou habilidade ao interpretar desenhos anatômicos feitos pelo apresentador Anderson Cooper em um quadro.
O ChatGPT não só identificou corretamente as partes desenhadas, mas também comentou sobre sua precisão.
Apesar do desempenho impressionante, o recurso mostrou vulnerabilidades.
Durante a mesma apresentação, errou ao solucionar um problema de geometria, evidenciando que ainda pode apresentar “alucinações” — respostas incorretas baseadas em interpretações errôneas.
A OpenAI, que enfrentou atrasos no lançamento do componente visual, tem concentrado esforços em expandir o Advanced Voice Mode para mais plataformas e mercados, enquanto rivais como Google e Meta correm para desenvolver capacidades semelhantes em seus produtos.
Além do avanço visual, a OpenAI adicionou um toque de diversão com o “Santa Mode”, que traz a voz do Papai Noel como uma opção temática.
Para ativar o recurso, basta tocar no ícone de floco de neve no aplicativo ChatGPT, ao lado da barra de prompt.
