Novo e desafiador teste de AGI supera a maioria dos modelos de IA

Teste ARC-AGI-2 expõe limites reais da inteligência artificial.
IAs poderosas tropeçam em tarefas que exigem raciocínio abstrato.
Humanos ainda lideram no desafio da inteligência geral.

Um novo teste de inteligência artificial geral (AGI) chegou para balançar o setor. Os resultados surpreenderam pesquisadores ao redor do mundo. Nem os sistemas mais avançados conseguiram se sair bem na avaliação.

A Arc Prize Foundation liderou a criação do desafio, batizado de ARC-AGI-2. O teste exige raciocínio, adaptação e compreensão de padrões inéditos. Mesmo os modelos mais sofisticados falharam em atingir boas pontuações.

Modelos poderosos tropeçam no ARC-AGI-2

A fundação sem fins lucrativos, cofundada pelo pesquisador François Chollet, anunciou o ARC-AGI-2 nesta segunda-feira. Além disso, a nova versão do teste propõe um desafio real de raciocínio e adaptação para as IAs, muito além dos benchmarks tradicionais.

Os números impressionam. Modelos de raciocínio como o o1-pro da OpenAI e o R1 da DeepSeek marcaram entre 1% e 1,3%. Já sistemas amplamente conhecidos, como GPT-4.5, Claude 3.7 Sonnet e Gemini 2.0 Flash, pontuaram apenas 1% no teste.

O ARC-AGI-2 usa problemas visuais similares a quebra-cabeças, nos quais a IA precisa encontrar padrões entre quadrados coloridos e gerar a resposta correta. Além disso, os desafios exigem adaptação rápida a cenários inéditos, algo que vai além da simples repetição de padrões.

CONTINUA APÓS A PUBLICIDADE

Ainda mais, o teste força os modelos a resolverem questões sem apoio de dados treinados previamente, exigindo raciocínio abstrato. O desempenho baixo indica que essas IAs ainda não conseguem lidar com inteligência geral real.

Humanos seguem na frente da IA

Mais de 400 pessoas também realizaram o ARC-AGI-2. Em média, os “painéis” humanos acertaram 60% das questões, desempenho muito superior ao dos modelos testados.

Em uma publicação no X, Chollet explicou que, ao contrário do ARC-AGI-1, a nova versão bloqueia soluções baseadas apenas em força bruta computacional. Além disso, ele corrige uma falha séria do teste anterior, lançado em 2022.

Segundo ele, o ARC-AGI-2 mede melhor a inteligência real de um sistema. Não basta ter dados ou potência; o modelo precisa compreender, adaptar e raciocinar diante de problemas inéditos.

Ainda mais, esse novo desafio mexe com as bases da pesquisa em IA. Além disso, os números mostram que, apesar dos avanços, as máquinas ainda estão longe da inteligência humana, especialmente quando precisam resolver o que nunca viram antes.

Modelos poderosos tropeçam no ARC-AGI-2

Humanos seguem na frente da IA

Leia Também

G-Assist, lançamento da Nvidia, analisa e otimiza jogos

Nova atualização do DeepSeek transforma IA em gênio da programação

N8n arrecada R$ 60 milhões e promete revolução na automação com IA e código justo

Pesquisadores usam IA para aprender regras de jogo de tabuleiro de 4,5 mil anos

Startup de Chips de IA FuriosaAI recusa oferta de US$ 800 milhões da Meta