- GPT-4.1 acelera codificação com foco em desenvolvedores reais
- Modelo processa 1 milhão de tokens com precisão variável
- OpenAI mira IA que cria softwares completos e documentados
A OpenAI revelou nesta segunda-feira (14) a nova geração de modelos de IA, GPT-4.1, GPT-4.1 mini e GPT-4.1 nano. Esses modelos surgem com uma proposta clara: melhorar drasticamente a codificação, oferecendo suporte mais preciso a tarefas de engenharia de software.
A principal novidade técnica impressiona. Os modelos conseguem processar até 1 milhão de tokens, o que equivale a mais de 700 mil palavras. Isso permite interações muito mais longas e detalhadas, com contexto ampliado e memória estendida.
Gigantes da IA disputam liderança em codificação avançada
O lançamento da OpenAI não acontece isoladamente. Google, Anthropic e DeepSeek já entregaram modelos como Gemini 2.5 Pro, Claude 3.7 Sonnet e DeepSeek V3, todos voltados para tarefas complexas de desenvolvimento.
A OpenAI, porém, quer ir além. Durante um evento recente, a CFO Sarah Friar declarou que a empresa visa construir um “engenheiro de software agente” uma IA capaz de criar sistemas completos, com testes, documentação e validações embutidas.
Para isso, o GPT-4.1 traz melhorias específicas como menor edição desnecessária, uso consistente de ferramentas, obediência à estrutura e aderência a padrões. Segundo a empresa, tudo foi ajustado com base em feedback real de desenvolvedores.
Os benchmarks mostram que o GPT-4.1 obteve até 54,6% de acerto no SWE-bench Verified, um índice usado para medir a qualidade da codificação. Embora fique atrás dos 63,8% do Gemini 2.5 Pro e dos 62,3% do Claude Sonnet, o GPT-4.1 oferece melhor custo-benefício.
Os preços variam conforme o modelo. O GPT-4.1 padrão custa R$ 11,76 (US$ 2) por milhão de tokens de entrada e R$ 47,04 (US$ 8) na saída. Já o nano sai por R$ 0,59 (US$ 0,10) e R$ 2,35 (US$ 0,40), respectivamente.
Modelo ainda falha em tarefas críticas de segurança
Mesmo com avanços, a OpenAI admite limitações importantes. Quando processa grandes volumes de tokens, a precisão cai drasticamente. Em testes internos, a taxa de acerto caiu de 84% para apenas 50%.
Outro ponto crítico é a tendência do modelo a gerar código com falhas ou vulnerabilidades, algo já identificado em estudos anteriores. Embora consiga lidar bem com prompts detalhados, o modelo ainda erra em tarefas que especialistas humanos resolveriam com facilidade.
No entanto, o GPT-4.1 marcou 72% de precisão no Video-MME, um teste que avalia compreensão de vídeos longos sem legendas um indicativo de sua versatilidade multimodal.
A nova linha da OpenAI sinaliza um movimento claro rumo à automação de tarefas de programação, mas deixa evidente que o caminho até um engenheiro de software autônomo ainda exige muitos ajustes.