Tech2 News Logo Dark Tech2 News Logo Light
Grupo de Ofertas
  • Notícias
  • Apps
  • Auto
  • Inteligência Artificial
  • Ciência
  • Celular
  • Games
  • Software
    • VPN
  • Apostas
Você está lendo: Benchmarks de IA estão falhando? Especialistas apontam falhas graves
Compartilhe
Font ResizerAa
Tech2Tech2
Pesquisar
  • Últimas Notícias
  • Apostas
  • Apps
  • Auto
  • Celular
  • Ciência
  • Computador
  • Curiosidades
  • Inteligência Artificial
  • Internet
  • Games
  • Software
    • VPN
  • Universo
Tech2 > Inteligência Artificial > Benchmarks de IA estão falhando? Especialistas apontam falhas graves
Inteligência Artificial

Benchmarks de IA estão falhando? Especialistas apontam falhas graves

Por Michael Henrique
Última Atualização: 22/04/2025
Compartilhe
Benchmarks de IA estão falhando? Especialistas apontam falhas graves
Imagem: Dall-e
Compartilhe
  • Especialistas criticam validade científica do Chatbot Arena
  • Plataformas colaborativas enfrentam acusações de manipulação
  • Avaliadores pedem remuneração e mais rigor nos testes de IA

Laboratórios de inteligência artificial têm usado cada vez mais plataformas de benchmarking colaborativo para testar seus modelos. O método, que envolve voluntários escolhendo respostas em testes anônimos, ganhou destaque, mas também gerou uma série de questionamentos.

Especialistas acusam os testes de favorecer modelos específicos e ignorar critérios técnicos fundamentais para garantir avaliações confiáveis. Para eles, o entusiasmo com benchmarks abertos não pode ofuscar suas limitações estruturais.

Especialistas criticam validade científica dos testes colaborativos

Emily Bender, professora de linguística da Universidade de Washington, questiona a legitimidade científica do Chatbot Arena. Para ela, o método não apresenta evidências de validade de construto. “Não basta medir preferências é preciso provar que a métrica reflete o desempenho real”, afirmou.

Asmelash Teka Hadgu, do Distributed AI Research Institute, também vê problemas sérios. Ele denunciou que grandes laboratórios, como a Meta, manipulam a pontuação dos modelos para promover lançamentos.

Segundo ele, a Meta descartou uma versão superior do Llama 4 Maverick, mesmo após treiná-la para se destacar no ranking da Arena.

Hadgu defende benchmarks dinâmicos, adaptados por especialistas de áreas como educação ou saúde. Porém, ele propõe que universidades e entidades independentes liderem esse processo. Além disso, cobra remuneração para os avaliadores, hoje tratados como voluntários descartáveis por muitas plataformas.

Plataformas tentam se adaptar, mas reconhecem limites

Kristine Gloria, ex-diretora do Instituto Aspen, vê valor no benchmarking colaborativo, mas exige mais responsabilidade. “Não podemos repetir os erros da indústria de rotulagem de dados”, alertou. Ela se refere a práticas exploratórias amplamente criticadas nos últimos anos.

Matt Frederikson, da Gray Swan AI, oferece prêmios para atrair testadores qualificados. No entanto, admite que apenas testes pagos e internos garantem profundidade analítica. Ele defende uma combinação entre benchmarks públicos, equipes contratadas e auditorias especializadas.

Representantes da Chatbot Arena também reagiram. Wei-Lin Chiang, um dos fundadores, garantiu que a plataforma atualizou suas políticas após a polêmica com o Maverick.

Chiang reafirmou o compromisso com transparência e reprodutibilidade. “A comunidade usa nossa plataforma por escolha, não como mão de obra barata.”

Chiang e Alex Atallah, do OpenRouter, concordam que os testes abertos têm valor, mas precisam de complementos técnicos e revisões constantes. “Não existe um único indicador que baste para medir inteligência artificial”, afirmou Atallah.

No fim, o debate mostra que o setor ainda precisa equilibrar inovação, transparência e rigor metodológico. Sem isso, os benchmarks deixam de informar e passam a iludir.

Leia Também

Marisa Maiô, IA que bombou no Instagram, é estrela na campanha de Dia dos Namorados do Magalu
ChatGPT é obrigado pela Justiça a armazenar até conversas excluídas
Google atualiza Gemini 2.5 Pro com melhorias em código e criatividade
X, que usa dados de usuários para treinar IA, proíbe uso de dados para terceiros
Sua próxima entrega da Amazon pode ser feita pro um robô em uma van elétrica
Sobre:benchmarksFalhasIA
Compartilhe:
Facebook Whatsapp Whatsapp Telegram Copiar Link
Michael Henrique
PorMichael Henrique
Siga:
Sou apaixonado por tecnologia, especialmente por consoles, começando minha jornada com um Nintendo 64. Gosto de explorar novos gadgets e sempre busco as melhores ofertas para economizar em minhas compras.
Grupo com as melhores ofertas, descontos e promoções!

Estamos constantemente buscando as melhores ofertas e descontos para compartilhar com você em nosso grupo.

Whatsapp

Mais Lidas

Meta quer permitir anúncios 100% feitos por IA até 2026

Inteligência Artificial
Gravadoras negociam acordo com startups de IA Suno e Udio - Imagem: Dall-E

Gravadoras negociam acordo com startups de IA Suno e Udio

Bing agora cria vídeos com Sora da OpenAI de graça - Imagem: Dall-E

Bing agora cria vídeos com Sora da OpenAI de graça

Palpites de Hoje: Apostas imperdíveis em Bogotá FC x Leones FC

Palpites de Hoje: Apostas imperdíveis em Bogotá FC x Leones FC

Google lança AI Edge Gallery, app para rodar IA no celular sem internet - Imagem: Dall-E

Google lança AI Edge Gallery, app para rodar IA no celular sem internet

  • Quem Somos
  • Política Editorial
  • Política de Privacidade
  • Sitemap
  • Contato

Redes: 

© 2024 Tech2. Todos os direitos reservado

Welcome Back!

Sign in to your account

Username or Email Address
Password

Lost your password?