Novo e desafiador teste de AGI supera a maioria dos modelos de IA

Por Michael Henrique
Imagem: Dall-e
  • Teste ARC-AGI-2 expõe limites reais da inteligência artificial.
  • IAs poderosas tropeçam em tarefas que exigem raciocínio abstrato.
  • Humanos ainda lideram no desafio da inteligência geral.

Um novo teste de inteligência artificial geral (AGI) chegou para balançar o setor. Os resultados surpreenderam pesquisadores ao redor do mundo. Nem os sistemas mais avançados conseguiram se sair bem na avaliação.

A Arc Prize Foundation liderou a criação do desafio, batizado de ARC-AGI-2. O teste exige raciocínio, adaptação e compreensão de padrões inéditos. Mesmo os modelos mais sofisticados falharam em atingir boas pontuações.

Modelos poderosos tropeçam no ARC-AGI-2

A fundação sem fins lucrativos, cofundada pelo pesquisador François Chollet, anunciou o ARC-AGI-2 nesta segunda-feira. Além disso, a nova versão do teste propõe um desafio real de raciocínio e adaptação para as IAs, muito além dos benchmarks tradicionais.

Os números impressionam. Modelos de raciocínio como o o1-pro da OpenAI e o R1 da DeepSeek marcaram entre 1% e 1,3%. Já sistemas amplamente conhecidos, como GPT-4.5, Claude 3.7 Sonnet e Gemini 2.0 Flash, pontuaram apenas 1% no teste.

O ARC-AGI-2 usa problemas visuais similares a quebra-cabeças, nos quais a IA precisa encontrar padrões entre quadrados coloridos e gerar a resposta correta. Além disso, os desafios exigem adaptação rápida a cenários inéditos, algo que vai além da simples repetição de padrões.

CONTINUA APÓS A PUBLICIDADE

Ainda mais, o teste força os modelos a resolverem questões sem apoio de dados treinados previamente, exigindo raciocínio abstrato. O desempenho baixo indica que essas IAs ainda não conseguem lidar com inteligência geral real.

Humanos seguem na frente da IA

Mais de 400 pessoas também realizaram o ARC-AGI-2. Em média, os “painéis” humanos acertaram 60% das questões, desempenho muito superior ao dos modelos testados.

Em uma publicação no X, Chollet explicou que, ao contrário do ARC-AGI-1, a nova versão bloqueia soluções baseadas apenas em força bruta computacional. Além disso, ele corrige uma falha séria do teste anterior, lançado em 2022.

Segundo ele, o ARC-AGI-2 mede melhor a inteligência real de um sistema. Não basta ter dados ou potência; o modelo precisa compreender, adaptar e raciocinar diante de problemas inéditos.

Ainda mais, esse novo desafio mexe com as bases da pesquisa em IA. Além disso, os números mostram que, apesar dos avanços, as máquinas ainda estão longe da inteligência humana, especialmente quando precisam resolver o que nunca viram antes.

Sobre:
Compartilhe:
Siga:
Sou apaixonado por tecnologia, especialmente por consoles, começando minha jornada com um Nintendo 64. Gosto de explorar novos gadgets e sempre busco as melhores ofertas para economizar em minhas compras.
Sair da versão mobile