Pesquisadores de Stanford e Washington criaram um modelo de IA eficiente gastando apenas R$ 50. O projeto utilizou computação em nuvem para reduzir custos e otimizar o desempenho. Essa abordagem mostrou que avanços significativos não exigem grandes investimentos.
O modelo, chamado s1, apresentou um desempenho superior ao GPT-o1 da OpenAI. Em competições matemáticas, a IA superou o rival em 27% das respostas. O resultado reforçou o potencial de técnicas acessíveis para aprimorar a inteligência artificial.
Desenvolvimento e metodologia
O estudo, disponível na plataforma ArXiv, buscou métodos simples para alcançar raciocínio de alta performance em “escalonamento de tempo real”, permitindo que, dessa forma, a IA prolongue seu processo de pensamento antes de responder.
Os pesquisadores utilizaram a técnica de destilação, extraindo capacidades de raciocínio de outros modelos de IA, como o Gemini 2.0 Flash Thinking. O treinamento do s1 envolveu 16 unidades de processamento gráfico (GPUs) H100 da Nvidia.
Inicialmente, a equipe criou um banco de dados com mil perguntas, cada uma acompanhada de rastros de raciocínio. Para prolongar o processo de pensamento da IA, adicionaram repetidamente a palavra “Wait” (“esperar”) quando o modelo tentava concluir o raciocínio. Essa abordagem incentivou a IA a revisar e corrigir possíveis erros em suas respostas.
Impacto e acessibilidade
Niklas Muennighoff, um dos autores do estudo, afirmou ao site TechCrunch que atualmente é possível alugar a computação em nuvem necessária para o projeto por apenas R$ 20. O código do modelo s1 está disponível publicamente no GitHub, promovendo transparência e colaboração na comunidade científica.
Este avanço destaca uma tendência emergente: o desenvolvimento de modelos de IA de código aberto que competem com soluções de grandes empresas de tecnologia, mas com recursos significativamente menores.
Em janeiro, a startup chinesa DeepSeek chamou a atenção ao demonstrar um feito semelhante, impactando ações de grandes companhias na bolsa Nasdaq.
Além disso, o instituto de pesquisa sem fins lucrativos Ai2, dos Estados Unidos, anunciou um modelo de linguagem de código aberto para competir com a DeepSeek. A startup francesa Mistral também busca entregar uma IA de alta performance sem a necessidade de vasto poder computacional.