Claude supera Gemini e ChatGPT em teste de IA com Super Mario

Por Luciano Rodrigues
Imagem: Dall-E
  • Claude 3.7 lidera testes de IA no Super Mario Bros.
  • Modelos de raciocínio lento falham em jogos de tempo real.
  • Pesquisadores questionam se jogos são bons benchmarks para IA.

Um grupo de pesquisadores do Hao AI Lab, da Universidade da Califórnia em San Diego, colocou a inteligência artificial para testar suas habilidades em Super Mario Bros. e descobriu que o jogo representa um desafio maior do que outros benchmarks, como Pokémon.

O experimento avaliou o desempenho de diferentes modelos de IA e revelou que até mesmo os mais avançados enfrentam dificuldades para jogar Mario de forma eficiente.

O teste utilizou um emulador integrado ao GamingAgent, um framework desenvolvido pelo laboratório para permitir que as IAs controlassem Mario. O GamingAgent forneceu instruções básicas, como, por exemplo, mover-se ou pular para evitar um obstáculo ou inimigo, além de capturas de tela do jogo. Com base nesses dados, a IA gerava comandos em código Python para controlar o personagem.

Os resultados apontaram que o Claude 3.7 da Anthropic teve o melhor desempenho, seguido pelo Claude 3.5. Já o Gemini 1.5 Pro, do Google, e o GPT-4o, da OpenAI, demonstraram dificuldades para lidar com a jogabilidade.

IA x Mario: desafio em tempo real

Diferente de benchmarks tradicionais, Super Mario Bros. exige tempo de resposta imediato e habilidades de planejamento de movimentos complexos.

CONTINUA APÓS A PUBLICIDADE

Assim, os pesquisadores notaram que os modelos de raciocínio passo a passo, como o GPT-4o da OpenAI, se saíram pior do que modelos que operam sem esse tipo de estratégia. A demora na tomada de decisões prejudicou o desempenho, já que frações de segundo podem determinar o sucesso ou fracasso de um salto no jogo.

Apesar de os jogos serem usados há décadas para avaliar a evolução da IA, especialistas questionam se eles são indicadores confiáveis do avanço tecnológico.

O cientista e membro fundador da OpenAI, Andrej Karpathy, classificou esse tipo de teste como parte de uma “crise de avaliação”, argumentando que ainda não há métricas claras para determinar a real capacidade dos modelos de IA atuais.

Por outro lado, parece que a IA está tentando emular os humanos até jogando o querido Super Mario Bros.

Compartilhe:
Siga:
Jornalista, assessor de comunicação, escritor e comunicador, com MBA em jornalismo digital e 12 anos de experiência, tendo passado também por alguns veículos no setor tech.
Sair da versão mobile