Tech2 News Logo Dark Tech2 News Logo Light
Grupo de Ofertas
  • Notícias
  • Apps
  • Auto
  • Inteligência Artificial
  • Ciência
  • Celular
  • Games
  • Software
    • VPN
  • Apostas
Você está lendo: Benchmarks de IA estão falhando? Especialistas apontam falhas graves
Compartilhe
Font ResizerAa
Tech2Tech2
Pesquisar
  • Últimas Notícias
  • Apostas
  • Apps
  • Auto
  • Celular
  • Ciência
  • Computador
  • Curiosidades
  • Inteligência Artificial
  • Internet
  • Games
  • Software
    • VPN
  • Universo
Tech2 > Inteligência Artificial > Benchmarks de IA estão falhando? Especialistas apontam falhas graves
Inteligência Artificial

Benchmarks de IA estão falhando? Especialistas apontam falhas graves

Por Michael Henrique
Última Atualização: 22/04/2025
Compartilhe
Benchmarks de IA estão falhando? Especialistas apontam falhas graves
Imagem: Dall-e
Compartilhe
  • Especialistas criticam validade científica do Chatbot Arena
  • Plataformas colaborativas enfrentam acusações de manipulação
  • Avaliadores pedem remuneração e mais rigor nos testes de IA

Laboratórios de inteligência artificial têm usado cada vez mais plataformas de benchmarking colaborativo para testar seus modelos. O método, que envolve voluntários escolhendo respostas em testes anônimos, ganhou destaque, mas também gerou uma série de questionamentos.

Especialistas acusam os testes de favorecer modelos específicos e ignorar critérios técnicos fundamentais para garantir avaliações confiáveis. Para eles, o entusiasmo com benchmarks abertos não pode ofuscar suas limitações estruturais.

Especialistas criticam validade científica dos testes colaborativos

Emily Bender, professora de linguística da Universidade de Washington, questiona a legitimidade científica do Chatbot Arena. Para ela, o método não apresenta evidências de validade de construto. “Não basta medir preferências é preciso provar que a métrica reflete o desempenho real”, afirmou.

Asmelash Teka Hadgu, do Distributed AI Research Institute, também vê problemas sérios. Ele denunciou que grandes laboratórios, como a Meta, manipulam a pontuação dos modelos para promover lançamentos.

Segundo ele, a Meta descartou uma versão superior do Llama 4 Maverick, mesmo após treiná-la para se destacar no ranking da Arena.

Hadgu defende benchmarks dinâmicos, adaptados por especialistas de áreas como educação ou saúde. Porém, ele propõe que universidades e entidades independentes liderem esse processo. Além disso, cobra remuneração para os avaliadores, hoje tratados como voluntários descartáveis por muitas plataformas.

Plataformas tentam se adaptar, mas reconhecem limites

Kristine Gloria, ex-diretora do Instituto Aspen, vê valor no benchmarking colaborativo, mas exige mais responsabilidade. “Não podemos repetir os erros da indústria de rotulagem de dados”, alertou. Ela se refere a práticas exploratórias amplamente criticadas nos últimos anos.

Matt Frederikson, da Gray Swan AI, oferece prêmios para atrair testadores qualificados. No entanto, admite que apenas testes pagos e internos garantem profundidade analítica. Ele defende uma combinação entre benchmarks públicos, equipes contratadas e auditorias especializadas.

Representantes da Chatbot Arena também reagiram. Wei-Lin Chiang, um dos fundadores, garantiu que a plataforma atualizou suas políticas após a polêmica com o Maverick.

Chiang reafirmou o compromisso com transparência e reprodutibilidade. “A comunidade usa nossa plataforma por escolha, não como mão de obra barata.”

Chiang e Alex Atallah, do OpenRouter, concordam que os testes abertos têm valor, mas precisam de complementos técnicos e revisões constantes. “Não existe um único indicador que baste para medir inteligência artificial”, afirmou Atallah.

No fim, o debate mostra que o setor ainda precisa equilibrar inovação, transparência e rigor metodológico. Sem isso, os benchmarks deixam de informar e passam a iludir.

Leia Também

Tinder aposta em IA e novos recursos para reconquistar usuários
ElevenLabs lança IA para criar músicas com uso comercial liberado
ChatGPT agora vai detectar sofrimento emocional e emitir alertas
Genie 3: DeepMind apresenta IA que pode gerar qualquer mundo real ou imaginário
Autor de best-sellers, Yuval Harari diz que IA pode dominar narrativas e enganar humanos
Sobre:benchmarksFalhasIA
Compartilhe:
Facebook Whatsapp Whatsapp Telegram Copiar Link
Michael Henrique
PorMichael Henrique
Siga:
Sou apaixonado por tecnologia, especialmente por consoles, começando minha jornada com um Nintendo 64. Gosto de explorar novos gadgets e sempre busco as melhores ofertas para economizar em minhas compras.

Mais Lidas

  • Quem Somos
  • Política Editorial
  • Política de Privacidade
  • Sitemap
  • Contato

Redes: 

© 2024 Tech2. Todos os direitos reservado

Welcome Back!

Sign in to your account

Username or Email Address
Password

Lost your password?