O Whisper, sistema de IA da OpenAI amplamente usado para transcrição médica, está levantando preocupações entre especialistas após um estudo apontar que ele gera “alucinações” durante transcrições — ou seja, inventa frases e até diagnósticos inexistentes.
Desenvolvido para simplificar o trabalho de profissionais de saúde, o Whisper é utilizado por milhares de médicos e hospitais através da empresa Nabla, que estima ter transcrito cerca de 7 milhões de conversas médicas.
O estudo, no entanto, preocupa ao indicar que cerca de 1% das transcrições apresentam problemas significativos, incluindo frases que não foram ditas.
Pesquisadores da Universidade Cornell, da Universidade de Washington e outras instituições analisaram o comportamento do Whisper ao transcrever áudios de pessoas com afasia, um distúrbio de linguagem.
O sistema tende a criar frases sem sentido em momentos de silêncio, como “Obrigado por assistir!”, o que aponta para uma possível influência de conteúdos de plataformas como o YouTube, onde a OpenAI treinou parte de seus modelos.
Essas “alucinações” incluem também condições médicas inventadas, o que pode causar problemas de interpretação e gerar riscos em contextos de uso médico.
Preocupações e resposta da OpenAI sobre o uso do Whisper
O uso do Whisper é especialmente delicado em contextos médicos, onde a precisão é essencial.
Diante das falhas observadas, a Nabla reconheceu o problema e afirmou estar trabalhando para corrigi-lo.
No entanto, os especialistas alertam que mesmo uma taxa de erro de 1% é elevada, considerando o impacto que uma transcrição imprecisa pode ter em registros médicos e diagnósticos.
A pesquisadora Allison Koenecke, da Universidade Cornell, destacou exemplos de frases incorretas em um tópico sobre o estudo, apresentando casos em que o Whisper inseriu frases violentas ou de caráter totalmente alheio ao contexto médico.
Taya Christianson, porta-voz da OpenAI, afirmou que a empresa leva o problema a sério e está trabalhando continuamente para reduzir as alucinações.
Christianson enfatizou que a OpenAI desaconselha o uso de Whisper em contextos de decisão de alto risco, como na saúde, e mencionou que a plataforma orienta seus usuários a adotar cautela ao aplicá-lo em domínios críticos.
O estudo sobre as falhas do Whisper foi apresentado em junho na conferência FAccT, no Brasil, pela Association for Computing Machinery, destacando a importância do debate sobre os limites e a confiabilidade da IA em ambientes de saúde.
Os desafios enfrentados pelo Whisper não são isolados: problemas semelhantes com alucinações já foram relatados em outras plataformas de IA, como a Meta, que recentemente enfrentou críticas após sua IA fornecer informações incorretas sobre um tiroteio em um comício.