- Especialistas criticam validade científica do Chatbot Arena
- Plataformas colaborativas enfrentam acusações de manipulação
- Avaliadores pedem remuneração e mais rigor nos testes de IA
Laboratórios de inteligência artificial têm usado cada vez mais plataformas de benchmarking colaborativo para testar seus modelos. O método, que envolve voluntários escolhendo respostas em testes anônimos, ganhou destaque, mas também gerou uma série de questionamentos.
Especialistas acusam os testes de favorecer modelos específicos e ignorar critérios técnicos fundamentais para garantir avaliações confiáveis. Para eles, o entusiasmo com benchmarks abertos não pode ofuscar suas limitações estruturais.
Especialistas criticam validade científica dos testes colaborativos
Emily Bender, professora de linguística da Universidade de Washington, questiona a legitimidade científica do Chatbot Arena. Para ela, o método não apresenta evidências de validade de construto. “Não basta medir preferências é preciso provar que a métrica reflete o desempenho real”, afirmou.
Asmelash Teka Hadgu, do Distributed AI Research Institute, também vê problemas sérios. Ele denunciou que grandes laboratórios, como a Meta, manipulam a pontuação dos modelos para promover lançamentos.
Segundo ele, a Meta descartou uma versão superior do Llama 4 Maverick, mesmo após treiná-la para se destacar no ranking da Arena.
Hadgu defende benchmarks dinâmicos, adaptados por especialistas de áreas como educação ou saúde. Porém, ele propõe que universidades e entidades independentes liderem esse processo. Além disso, cobra remuneração para os avaliadores, hoje tratados como voluntários descartáveis por muitas plataformas.
Plataformas tentam se adaptar, mas reconhecem limites
Kristine Gloria, ex-diretora do Instituto Aspen, vê valor no benchmarking colaborativo, mas exige mais responsabilidade. “Não podemos repetir os erros da indústria de rotulagem de dados”, alertou. Ela se refere a práticas exploratórias amplamente criticadas nos últimos anos.
Matt Frederikson, da Gray Swan AI, oferece prêmios para atrair testadores qualificados. No entanto, admite que apenas testes pagos e internos garantem profundidade analítica. Ele defende uma combinação entre benchmarks públicos, equipes contratadas e auditorias especializadas.
Representantes da Chatbot Arena também reagiram. Wei-Lin Chiang, um dos fundadores, garantiu que a plataforma atualizou suas políticas após a polêmica com o Maverick.
Chiang reafirmou o compromisso com transparência e reprodutibilidade. “A comunidade usa nossa plataforma por escolha, não como mão de obra barata.”
Chiang e Alex Atallah, do OpenRouter, concordam que os testes abertos têm valor, mas precisam de complementos técnicos e revisões constantes. “Não existe um único indicador que baste para medir inteligência artificial”, afirmou Atallah.
No fim, o debate mostra que o setor ainda precisa equilibrar inovação, transparência e rigor metodológico. Sem isso, os benchmarks deixam de informar e passam a iludir.