Claude supera Gemini e ChatGPT em teste de IA com Super Mario

Claude 3.7 lidera testes de IA no Super Mario Bros.
Modelos de raciocínio lento falham em jogos de tempo real.
Pesquisadores questionam se jogos são bons benchmarks para IA.

Um grupo de pesquisadores do Hao AI Lab, da Universidade da Califórnia em San Diego, colocou a inteligência artificial para testar suas habilidades em Super Mario Bros. e descobriu que o jogo representa um desafio maior do que outros benchmarks, como Pokémon.

O experimento avaliou o desempenho de diferentes modelos de IA e revelou que até mesmo os mais avançados enfrentam dificuldades para jogar Mario de forma eficiente.

O teste utilizou um emulador integrado ao GamingAgent, um framework desenvolvido pelo laboratório para permitir que as IAs controlassem Mario. O GamingAgent forneceu instruções básicas, como, por exemplo, mover-se ou pular para evitar um obstáculo ou inimigo, além de capturas de tela do jogo. Com base nesses dados, a IA gerava comandos em código Python para controlar o personagem.

Os resultados apontaram que o Claude 3.7 da Anthropic teve o melhor desempenho, seguido pelo Claude 3.5. Já o Gemini 1.5 Pro, do Google, e o GPT-4o, da OpenAI, demonstraram dificuldades para lidar com a jogabilidade.

IA x Mario: desafio em tempo real

Diferente de benchmarks tradicionais, Super Mario Bros. exige tempo de resposta imediato e habilidades de planejamento de movimentos complexos.

CONTINUA APÓS A PUBLICIDADE

Assim, os pesquisadores notaram que os modelos de raciocínio passo a passo, como o GPT-4o da OpenAI, se saíram pior do que modelos que operam sem esse tipo de estratégia. A demora na tomada de decisões prejudicou o desempenho, já que frações de segundo podem determinar o sucesso ou fracasso de um salto no jogo.

Apesar de os jogos serem usados há décadas para avaliar a evolução da IA, especialistas questionam se eles são indicadores confiáveis do avanço tecnológico.

O cientista e membro fundador da OpenAI, Andrej Karpathy, classificou esse tipo de teste como parte de uma “crise de avaliação”, argumentando que ainda não há métricas claras para determinar a real capacidade dos modelos de IA atuais.

Por outro lado, parece que a IA está tentando emular os humanos até jogando o querido Super Mario Bros.

IA x Mario: desafio em tempo real

Leia Também