Meta é envolvida em suposta manipulação de Benchmarks do Llama 4

Meta testa versão oculta do Llama 4 e causa polêmica.
Llama 4 brilha em benchmark, mas com modelo experimental.
Comunidade cobra transparência após teste com IA customizada.

A Meta enfrenta questionamentos da comunidade de inteligência artificial após divulgar resultados impressionantes do Llama 4 em benchmarks. A empresa usou uma versão experimental do modelo, diferente da que liberou ao público.

Especialistas apontaram a inconsistência logo após a divulgação dos dados de desempenho. A própria Meta confirmou que não submeteu a mesma versão disponibilizada para desenvolvedores e pesquisadores.

Versão “otimizada” rendeu bons resultados à Meta

No ranking do LMArena, o Llama 4 alcançou a segunda colocação, com 1.417 pontos na pontuação Elo. O modelo superou concorrentes como o GPT-4-turbo, da OpenAI, e ficou atrás apenas do Gemini 2.5 Pro, do Google. A pontuação veio a partir de batalhas comparativas, onde usuários escolhem qual modelo responde melhor a perguntas idênticas.

A boa performance, no entanto, não veio da versão open source lançada pela empresa. A Meta usou o modelo chamado Llama-4-Maverick-03-26-Experimental, conforme admitiu em nota ao The Verge. Porém, a companhia alegou que costuma testar “várias variantes customizadas” em ambientes de benchmarking.

A documentação oficial do Llama 4 também cita que o modelo testado no LMArena foi otimizado para “conversacionalidade”. Apesar da transparência parcial, a estratégia levantou dúvidas sobre a intenção por trás da escolha.

Organizadores do LMArena reagem à decisão da Meta

A equipe responsável pelo LMArena criticou a postura da Meta. Em comunicado, os organizadores afirmaram que a interpretação da empresa sobre as regras da plataforma não condiz com o esperado. Segundo eles, a Meta deveria ter sinalizado com mais clareza que usou uma versão ajustada do modelo.

A comunidade de IA valoriza a equidade nos benchmarks, especialmente em plataformas abertas como o LMArena. Quando uma empresa testa uma versão diferente daquela liberada ao público, o resultado perde valor comparativo. O uso da versão experimental levanta dúvidas sobre a real capacidade do modelo disponível aos desenvolvedores.

Apesar da controvérsia, a Meta minimizou as críticas. A empresa afirmou estar empolgada com o potencial do Llama 4 de código aberto e destacou que a versão experimental também teve bom desempenho nos testes. Até o momento, a companhia não indicou se pretende rever sua abordagem ou republicar os dados com o modelo oficial.

Enquanto isso, especialistas seguem debatendo os impactos éticos e técnicos desse tipo de decisão. A discussão sobre transparência em benchmarks promete ganhar força nos próximos meses, com o crescimento dos modelos open source e a pressão por métricas mais confiáveis.

Meta é envolvida em suposta manipulação de Benchmarks do Llama 4

Versão “otimizada” rendeu bons resultados à Meta

Organizadores do LMArena reagem à decisão da Meta

Mais Lidas

Meta quer permitir anúncios 100% feitos por IA até 2026

Bing agora cria vídeos com Sora da OpenAI de graça

Santander permite trazer dinheiro de outros bancos sem sair do app

Character.AI lança criação de vídeos com IA e acende alerta

Quer ir para o espaço? Empresa vai vender aviões espaciais direto para pessoas

Versão “otimizada” rendeu bons resultados à Meta

Organizadores do LMArena reagem à decisão da Meta

Leia Também

Mais Lidas

Meta quer permitir anúncios 100% feitos por IA até 2026

Bing agora cria vídeos com Sora da OpenAI de graça

Santander permite trazer dinheiro de outros bancos sem sair do app

Character.AI lança criação de vídeos com IA e acende alerta

Quer ir para o espaço? Empresa vai vender aviões espaciais direto para pessoas