OpenAI exagerou? IA O3 tem desempenho abaixo do prometido

OpenAI exagera desempenho do modelo O3 em testes internos
Benchmark independente revela pontuação real muito inferior
Especialistas questionam transparência nos resultados divulgados pela empresa

A OpenAI enfrenta questionamentos sérios após novos dados divulgados revelarem inconsistências nos resultados anunciados. Especialistas do setor analisaram o modelo O3 e identificaram diferenças relevantes entre os testes internos e externos.

O benchmark independente apresentou desempenho bem inferior ao divulgado. A pontuação real caiu para 10%, frustrando expectativas e gerando dúvidas sobre a transparência da OpenAI.

Diferença entre testes internos e independentes expõe exagero

A Epoch AI, responsável pelo teste FrontierMath, publicou na sexta-feira um relatório que atribui ao O3 uma pontuação de 10%, valor muito inferior aos 25% anunciados pela OpenAI em dezembro. A empresa havia sugerido uma performance muito superior à de todos os concorrentes, que não ultrapassavam 2% nesse benchmark.

Mark Chen, diretor de pesquisa da OpenAI, reforçou essa vantagem durante uma transmissão ao vivo, destacando o uso de configurações agressivas de computação para alcançar aquele desempenho. No entanto, a versão lançada publicamente do O3 na última semana utiliza uma infraestrutura bem menos poderosa.

O próprio benchmark interno da OpenAI já indicava pontuação menor que 25%, o que sugere que a empresa usou números de melhor cenário para promover o modelo. A Epoch explicou que utilizou uma base de dados atualizada e uma configuração distinta da adotada pela OpenAI.

Versão pública do O3 traz ajustes e menor performance

De acordo com uma publicação no X da ARC Prize Foundation, que testou uma versão de pré-lançamento do modelo, confirmou que a versão pública do O3 é diferente da testada anteriormente. Segundo a instituição, o modelo atual foi ajustado para funcionar melhor em contextos de produto e uso em chat, o que impacta negativamente os resultados de benchmark.

Wenda Zhou, integrante da equipe técnica da OpenAI, afirmou em nova transmissão que o modelo atual prioriza velocidade e eficiência, mesmo que isso reduza sua pontuação em testes técnicos. “Preferimos entregar respostas mais rápidas, com foco em aplicações do mundo real”, declarou.

Porém, a empresa planeja lançar em breve uma versão mais potente, o O3-Pro, que promete reverter esse quadro. Modelos O3-mini-high e O4-mini já superam o O3, provando que a tecnologia ainda pode evoluir bastante nos benchmarks.

Apesar disso, o episódio reforça um padrão preocupante: empresas de IA frequentemente destacam benchmarks internos, que nem sempre refletem a experiência real dos usuários. A corrida por manchetes continua ofuscando a transparência dos testes.

Em paralelo, outras gigantes do setor também enfrentam críticas. A Meta e a xAI, de Elon Musk, foram acusadas de divulgar gráficos e dados enganosos sobre seus modelos de IA neste mesmo mês.

Diferença entre testes internos e independentes expõe exagero

Versão pública do O3 traz ajustes e menor performance

Leia Também

Mais Lidas