O GPT-4.1 tem oficialmente pousado Na API OpenAI, introduzindo um trio de modelos-GPT-4.1, GPT-4.1 Mini e GPT-4.1 Nano-que superam seus antecessores em quase todas as dimensões. Esses modelos são projetados para desenvolvedores que precisam de melhores habilidades de codificação, seguintes instruções mais fortes e compreensão maciça de longo contexto, enquanto reduz a latência e o custo. O modelo principal agora suporta até 1 milhão de tokens de contexto e apresenta um novo corte de conhecimento de junho de 2024.
O que há de novo no GPT-4.1?
A família GPT-4.1 é uma atualização direta sobre o GPT-4O e o GPT-4.5, oferecendo melhor desempenho nos benchmarks enquanto otimiza para uso do desenvolvedor do mundo real. GPT-4.1 obtém 54,6% em sNós verificamostornando -o um dos principais modelos para tarefas de codificação. Na escala Benchmark MultichallengeEle vê uma melhoria absoluta de 10,5% em relação ao GPT-4O na instrução seguinte. Para tarefas de contexto longas, ele define uma nova pontuação de última geração de 72% no Benchmark de vídeo-mme.
Os modelos também são otimizados na curva de latência. O GPT-4.1 Mini oferece quase o mesmo desempenho que o GPT-4O enquanto corta a latência ao meio e reduz o custo em 83%. O GPT-4.1 Nano é o modelo mais rápido e acessível do OpenAI, construído para tarefas de classificação e preenchimento automático, enquanto ainda suporta 1 milhão de janelas de contexto de token.
Capacidades de codificação dão um salto
Desde a geração de interfaces mais limpas do front-end até os formatos de Diff seguintes de maneira mais confiável, o GPT-4.1 se prova como um assistente de codificação altamente capaz. No benchmark verificado do banco do SWE, ele completa mais da metade das tarefas corretamente-acima de 33,2% com o GPT-4O. Ele também supera o GPT-4O e até o GPT-4.5 no benchmark Diff Polleglot da Aider, oferecendo aos desenvolvedores edições precisas em várias linguagens de programação sem reescrever arquivos inteiros. Para reescritas no nível do arquivo, os limites de token de saída foram expandidos para 32.768 tokens.
Nas comparações internas, os sites do GPT-4.1 foram preferidos 80% das saídas do GPT-4O. As edições estranhas no código caíram de 9% para apenas 2%, refletindo melhor compreensão do contexto e uso de ferramentas.
Os primeiros adotantes destacam vitórias no mundo real
Windsurf relatou uma melhoria de 60% nos benchmarks internos, enquanto o Qodo descobriu que o GPT-4.1 forneceu melhores sugestões em 55% das solicitações de tração do GitHub. Essas melhorias se traduzem diretamente em uma melhor precisão de revisão de código, menos sugestões desnecessárias e ciclos de iteração mais rápidos para as equipes.
Instrução mais nítida seguindo os cenários
O GPT-4.1 tem um desempenho significativamente melhor na confiabilidade das instruções. Ele obtém 87,4% no IFEVAL e 38% no benchmark Multichallenge, apresentando ganhos no manuseio de formatos complexos, rejeitando instruções proibidas e classificando ou classificando saídas. A própria avaliação do OpenAI mostrou que o GPT-4.1 é mais preciso em instruções difíceis e melhor no rastreamento de instruções de várias turnos, uma característica essencial para a criação de sistemas de conversação confiáveis.
Blue J e Hex testaram o GPT-4.1 contra tarefas específicas de domínio. O Blue J viu uma melhoria de precisão de 53% nos cenários de impostos complexos, enquanto o Hex relatou quase o dobro do desempenho nas tarefas do SQL, reduzindo a depuração aérea e melhorando a leitura da produção.
1 milhão de janelas de contexto de token define um novo bar
Todos os três modelos da família GPT-4.1 agora suportam até 1 milhão de tokens de contexto-com 8 vezes a base de código React. Isso permite novos casos de uso poderosos em análise de documentos legais, pesquisa financeira e fluxos de trabalho de software de forma longa. No teste de “agulha em um palheiro” do Openai, o GPT-4.1 recuperou de forma confiável o conteúdo relevante, independentemente de onde apareceu na entrada.
O benchmark do OpenAI-MRCR confirmou ainda isso testando a capacidade do modelo de distinguir entre os avisos quase idênticos espalhados por uma enorme janela de contexto. Na referência Graphwalks, que envolve raciocínio entre nós em um gráfico sintético, o GPT-4.1 obteve 62%, significativamente à frente dos 42%do GPT-4O.
A Thomson Reuters relatou um aumento de 17% na precisão da revisão de documentos legais usando o GPT-4.1 em seu sistema Cocounsel, enquanto Carlyle viu uma melhoria de 50% na extração de dados financeiros granulares de arquivos complexos.
GPT-4.5 Out-humanos humanos em novos testes
Inferência mais rápida e melhor compreensão da imagem
O OpenAI reduziu o tempo para o primeiro token usando melhorias em sua pilha de inferência. O GPT-4.1 Nano responde em menos de cinco segundos em prompts de 128k-token. Para tarefas multimodais, o GPT-4.1 Mini mostra uma compreensão de imagem mais forte do que o GPT-4O em benchmarks como MMMU e Mathvista.
Em benchmarks visuais, como o raciocínio de charxiv e o video-mme, o GPT-4.1 lidera consistentemente, pontuando 72% neste último sem legendas. Isso o torna uma das principais opções para compreensão de vídeo e interpretação científica de gráficos.
Cortes de preços e planos de transição
Todos os três modelos GPT-4.1 já estão disponíveis na API, com uma queda de preço significativa. O GPT-4.1 é 26% mais barato para consultas médias em comparação com o GPT-4O. Os descontos rápidos de cache aumentaram para 75%e não há cobranças extras para entradas de longo contexto. A pré-visualização do GPT-4.5 será depreciada até 14 de julho de 2025, a favor da família GPT-4.1 mais eficiente.
Os preços por 1M de tokens para GPT-4.1 são fixados em US $ 2 para entrada, US $ 0,50 para entrada em cache e US $ 8 para saída. O GPT-4.1 Nano reduz-os para US $ 0,10, US $ 0,025 e US $ 0,40, respectivamente-tornando-o a opção mais acessível até o momento.