A OpenAI lançou oficialmente o recurso de visão em tempo real para o Advanced Voice Mode do ChatGPT, anunciado há meses.
A novidade, voltada para assinantes dos planos Plus, Team ou Pro, permite que o ChatGPT analise objetos e telas quase instantaneamente ao ser acionado por meio do aplicativo oficial.
Com a atualização, os usuários podem apontar a câmera de seus dispositivos para objetos físicos e fazer perguntas sobre eles, enquanto o ChatGPT responde com rapidez.
Além disso, a funcionalidade permite entender conteúdos exibidos na tela de dispositivos, oferecendo explicações sobre menus de configurações ou soluções para problemas de matemática diretamente por meio do compartilhamento de tela.
Para ativar o novo recurso, basta tocar no ícone de voz próximo à barra de bate-papo, seguido do ícone de vídeo no canto inferior esquerdo para iniciar a análise visual.
O compartilhamento de tela pode ser habilitado no menu de três pontos.
A OpenAI planeja completar a implementação do recurso ao longo da próxima semana. No entanto, nem todos os usuários terão acesso imediato.
Assinantes do ChatGPT Enterprise e Edu só poderão utilizar o recurso em janeiro. Já usuários localizados na União Europeia, Suíça, Islândia, Noruega e Liechtenstein aguardam uma data de lançamento ainda indefinida.
Advanced Voice Mode apresenta potencial e limitações
Em uma recente exibição no programa “60 Minutes” da CNN, o Advanced Voice Mode com visão demonstrou habilidade ao interpretar desenhos anatômicos feitos pelo apresentador Anderson Cooper em um quadro.
O ChatGPT não só identificou corretamente as partes desenhadas, mas também comentou sobre sua precisão.
Apesar do desempenho impressionante, o recurso mostrou vulnerabilidades.
Durante a mesma apresentação, errou ao solucionar um problema de geometria, evidenciando que ainda pode apresentar “alucinações” — respostas incorretas baseadas em interpretações errôneas.
A OpenAI, que enfrentou atrasos no lançamento do componente visual, tem concentrado esforços em expandir o Advanced Voice Mode para mais plataformas e mercados, enquanto rivais como Google e Meta correm para desenvolver capacidades semelhantes em seus produtos.
Além do avanço visual, a OpenAI adicionou um toque de diversão com o “Santa Mode”, que traz a voz do Papai Noel como uma opção temática.
O recurso pode ser ativado tocando no ícone de floco de neve no aplicativo ChatGPT, ao lado da barra de prompt.