Benchmarks de IA estão falhando? Especialistas apontam falhas graves

Especialistas criticam validade científica do Chatbot Arena
Plataformas colaborativas enfrentam acusações de manipulação
Avaliadores pedem remuneração e mais rigor nos testes de IA

Laboratórios de inteligência artificial têm usado cada vez mais plataformas de benchmarking colaborativo para testar seus modelos. O método, que envolve voluntários escolhendo respostas em testes anônimos, ganhou destaque, mas também gerou uma série de questionamentos.

Especialistas acusam os testes de favorecer modelos específicos e ignorar critérios técnicos fundamentais para garantir avaliações confiáveis. Para eles, o entusiasmo com benchmarks abertos não pode ofuscar suas limitações estruturais.

Especialistas criticam validade científica dos testes colaborativos

Emily Bender, professora de linguística da Universidade de Washington, questiona a legitimidade científica do Chatbot Arena. Para ela, o método não apresenta evidências de validade de construto. “Não basta medir preferências é preciso provar que a métrica reflete o desempenho real”, afirmou.

Asmelash Teka Hadgu, do Distributed AI Research Institute, também vê problemas sérios. Ele denunciou que grandes laboratórios, como a Meta, manipulam a pontuação dos modelos para promover lançamentos.

Segundo ele, a Meta descartou uma versão superior do Llama 4 Maverick, mesmo após treiná-la para se destacar no ranking da Arena.

Hadgu defende benchmarks dinâmicos, adaptados por especialistas de áreas como educação ou saúde. Porém, ele propõe que universidades e entidades independentes liderem esse processo. Além disso, cobra remuneração para os avaliadores, hoje tratados como voluntários descartáveis por muitas plataformas.

Plataformas tentam se adaptar, mas reconhecem limites

Kristine Gloria, ex-diretora do Instituto Aspen, vê valor no benchmarking colaborativo, mas exige mais responsabilidade. “Não podemos repetir os erros da indústria de rotulagem de dados”, alertou. Ela se refere a práticas exploratórias amplamente criticadas nos últimos anos.

Matt Frederikson, da Gray Swan AI, oferece prêmios para atrair testadores qualificados. No entanto, admite que apenas testes pagos e internos garantem profundidade analítica. Ele defende uma combinação entre benchmarks públicos, equipes contratadas e auditorias especializadas.

Representantes da Chatbot Arena também reagiram. Wei-Lin Chiang, um dos fundadores, garantiu que a plataforma atualizou suas políticas após a polêmica com o Maverick.

Chiang reafirmou o compromisso com transparência e reprodutibilidade. “A comunidade usa nossa plataforma por escolha, não como mão de obra barata.”

Chiang e Alex Atallah, do OpenRouter, concordam que os testes abertos têm valor, mas precisam de complementos técnicos e revisões constantes. “Não existe um único indicador que baste para medir inteligência artificial”, afirmou Atallah.

No fim, o debate mostra que o setor ainda precisa equilibrar inovação, transparência e rigor metodológico. Sem isso, os benchmarks deixam de informar e passam a iludir.

Especialistas criticam validade científica dos testes colaborativos

Plataformas tentam se adaptar, mas reconhecem limites

Leia Também