- Claude 3.7 lidera testes de IA no Super Mario Bros.
- Modelos de raciocínio lento falham em jogos de tempo real.
- Pesquisadores questionam se jogos são bons benchmarks para IA.
Um grupo de pesquisadores do Hao AI Lab, da Universidade da Califórnia em San Diego, colocou a inteligência artificial para testar suas habilidades em Super Mario Bros. e descobriu que o jogo representa um desafio maior do que outros benchmarks, como Pokémon.
O experimento avaliou o desempenho de diferentes modelos de IA e revelou que até mesmo os mais avançados enfrentam dificuldades para jogar Mario de forma eficiente.
O teste utilizou um emulador integrado ao GamingAgent, um framework desenvolvido pelo laboratório para permitir que as IAs controlassem Mario. O GamingAgent forneceu instruções básicas, como, por exemplo, mover-se ou pular para evitar um obstáculo ou inimigo, além de capturas de tela do jogo. Com base nesses dados, a IA gerava comandos em código Python para controlar o personagem.
Os resultados apontaram que o Claude 3.7 da Anthropic teve o melhor desempenho, seguido pelo Claude 3.5. Já o Gemini 1.5 Pro, do Google, e o GPT-4o, da OpenAI, demonstraram dificuldades para lidar com a jogabilidade.
IA x Mario: desafio em tempo real
Diferente de benchmarks tradicionais, Super Mario Bros. exige tempo de resposta imediato e habilidades de planejamento de movimentos complexos.
Assim, os pesquisadores notaram que os modelos de raciocínio passo a passo, como o GPT-4o da OpenAI, se saíram pior do que modelos que operam sem esse tipo de estratégia. A demora na tomada de decisões prejudicou o desempenho, já que frações de segundo podem determinar o sucesso ou fracasso de um salto no jogo.
Apesar de os jogos serem usados há décadas para avaliar a evolução da IA, especialistas questionam se eles são indicadores confiáveis do avanço tecnológico.
O cientista e membro fundador da OpenAI, Andrej Karpathy, classificou esse tipo de teste como parte de uma “crise de avaliação”, argumentando que ainda não há métricas claras para determinar a real capacidade dos modelos de IA atuais.
Por outro lado, parece que a IA está tentando emular os humanos até jogando o querido Super Mario Bros.