Advanced Voice Mode, com análise de imagens em tempo real, finalmente chega ao ChatGPT

A OpenAI lançou oficialmente o recurso de visão em tempo real para o Advanced Voice Mode do ChatGPT, anunciado há meses.

A novidade, voltada para assinantes dos planos Plus, Team ou Pro, permite que o ChatGPT analise objetos e telas. A OpenIA promete que isso ocorra quase instantaneamente ao ser acionado por meio do aplicativo oficial.

Com a atualização, os usuários podem apontar a câmera de seus dispositivos para objetos físicos e fazer perguntas sobre eles. A resposta, por sua vez, deve ter a mesma agilidade que já conhecemos ao utilizar o ChatGPT.

Além disso, a funcionalidade permite entender conteúdos exibidos na tela de dispositivos, oferecendo explicações sobre menus de configurações ou soluções para problemas de matemática diretamente por meio do compartilhamento de tela. A solução, sobretudo, visa expandir as formas de usar a IA.

Para ativar o novo recurso, basta tocar no ícone de voz próximo à barra de bate-papo. Depois, o ícone de vídeo no canto inferior esquerdo ficará ativo para, assim, iniciar a análise visual.

O compartilhamento de tela pode ser habilitado no menu de três pontos.

A OpenAI planeja completar a implementação do recurso ao longo da próxima semana. No entanto, nem todos os usuários terão acesso imediato.

Assinantes do ChatGPT Enterprise e Edu só poderão utilizar o recurso em janeiro. Já usuários localizados na União Europeia, Suíça, Islândia, Noruega e Liechtenstein aguardam uma data de lançamento ainda indefinida.

Advanced Voice Mode apresenta potencial e limitações

Em uma recente exibição no programa “60 Minutes” da CNN, o Advanced Voice Mode com visão demonstrou habilidade ao interpretar desenhos anatômicos feitos pelo apresentador Anderson Cooper em um quadro.

O ChatGPT não só identificou corretamente as partes desenhadas, mas também comentou sobre sua precisão.

Apesar do desempenho impressionante, o recurso mostrou vulnerabilidades.

Durante a mesma apresentação, errou ao solucionar um problema de geometria, evidenciando que ainda pode apresentar “alucinações” — respostas incorretas baseadas em interpretações errôneas.

A OpenAI, que enfrentou atrasos no lançamento do componente visual, tem concentrado esforços em expandir o Advanced Voice Mode para mais plataformas e mercados, enquanto rivais como Google e Meta correm para desenvolver capacidades semelhantes em seus produtos.

Além do avanço visual, a OpenAI adicionou um toque de diversão com o “Santa Mode”, que traz a voz do Papai Noel como uma opção temática.

Para ativar o recurso, basta tocar no ícone de floco de neve no aplicativo ChatGPT, ao lado da barra de prompt.

Advanced Voice Mode apresenta potencial e limitações

Leia Também

Mais Lidas