A IA Company Anthrópica lançou o Claude Sonnet 4.5, um novo modelo principal que a empresa posiciona como mais capaz para codificar, construir agentes complexos de IA e usar sistemas de computador, com ganhos significativos no raciocínio e na matemática. O novo modelo já está disponível e é acompanhado por um novo kit de ferramentas de desenvolvedor e grandes atualizações na linha de produtos Claude.
Recursos do Soneto 4.5 que se destacam
De acordo com os antropia Postagem do blogo modelo atinge o desempenho de ponta na avaliação verificada do SWE-banch, uma referência que mede as habilidades de codificação de software do mundo real. Ele também mostra um desempenho aprimorado na referência Osworld, que testa a capacidade de um modelo de IA de executar tarefas do mundo real em um computador, como navegar sites e preencher planilhas. A empresa também relata que especialistas em finanças, direito, medicina e STEM encontraram o Sonnet 4.5 como tendo conhecimento e raciocínio dramaticamente melhores específicos de domínio em comparação com os modelos anteriores.
Novas ferramentas para desenvolvedores: o agente Claude SDK
Juntamente com o novo modelo, o Anthropic lançou o Claude Agent Sdk. Este kit de desenvolvimento de software fornece aos desenvolvedores a mesma infraestrutura que a empresa usa para alimentar seu produto de código Claude, permitindo que eles construam seus próprios agentes de IA personalizados. O SDK foi projetado para resolver desafios comuns no desenvolvimento de agentes, como gerenciar a memória para tarefas de longa duração, lidar com sistemas de permissão e coordenar subagentes que trabalham em direção a uma meta compartilhada. https://www.youtube.com/watch?v=oxfvkbb7mcg
Atualizações de produtos em todo o ecossistema Claude
O lançamento do Sonnet 4.5 inclui várias atualizações significativas nos produtos Claude existentes.
- Código Claude: Introduz pontos de verificação que permitem aos usuários salvar o progresso e voltar para um estado anterior, uma interface de terminal atualizada e uma extensão de código nativo vs.
- Claude API: Adiciona um novo recurso de edição de contexto e uma ferramenta de memória para ajudar os agentes a rodar mais e a lidar com tarefas mais complexas.
- Aplicativos Claude: Os usuários em planos pagos agora podem executar código e criar arquivos, como planilhas, slides e documentos, diretamente dentro de suas conversas.
- Claude para extensão do Chrome: Agora disponível para usuários Max que anteriormente ingressaram na lista de espera.
Concentre -se na segurança e alinhamento
Estados antrópicos que o claude Sonnet 4.5 é seu modelo mais alinhado até o momento, com melhorias na redução de comportamentos indesejáveis, como engano e spofância. O modelo é liberado pela estrutura do nível de segurança da AI (ASL-3) da empresa, que inclui salvaguardas como classificadores projetados para detectar insumos e saídas potencialmente perigosos, particularmente aqueles relacionados a armas químicas, biológicas, radiológicas e nucleares (CBRN).
Imagine com Claude
Por um tempo limitado, a Anthropic está oferecendo uma prévia de pesquisa chamada “Imagine With Claude” para seus assinantes Max. Nesta demonstração, o modelo gera software em tempo real em resposta às solicitações de usuário, sem código pré -escrito. Esta visualização foi projetada para mostrar os recursos do SON-Net 4.5 quando combinados com a infraestrutura certa.
Disponibilidade e preços
Claude Sonnet 4.5 já está disponível através da API Claude. O preço é o mesmo que o modelo anterior de Claude Sonnet 4, a US $ 3 por milhão de tokens de entrada e tokens de produção de US $ 15 por milhão. A Anthropic recomenda a atualização para o Sonnet 4.5 para todos os usos, pois fornece um desempenho aprimorado pelo mesmo custo. https://www.youtube.com/watch?v=oz-alrj0ovg
Claude Sonnet 4.5 vs ChatGPT-5: Qual você deve usar para o seu próximo projeto?
O lançamento do Claude Sonnet 4.5 intensificou a competição na vanguarda da inteligência artificial, desafiando diretamente GPT-5. Enquanto os dois modelos representam o desenvolvimento avançado de IA, eles mostram forças distintas, principalmente nos domínios da codificação, capacidades de agitação e desempenho geral.
À primeira vista: as principais diferenças
| Recurso | Claude Sonnet 4.5 | GPT-5 |
|---|---|---|
| Força primária | Codificação agêntica, uso do computador e tarefas autônomas de longa duração. | Inteligência unificada, raciocínio avançado e recursos multimodais. |
| SWE-banche verificado | 77,2% (padrão), 82% (alta computação). | 72,8%. |
| Osworld Benchmark | 61,4%. | Não especificado, mas o Sonnet 4.5 lidera o gráfico. |
| Ferramentas de desenvolvedor | Claude Agent SDK, Extensão de Código Nativo vs, código Claude com pontos de verificação. | Acessado pela API e integrado a produtos como ChatGPT e Microsoft Copilot. |
| Recursos únicos | Pode operar autônomo por mais de 30 horas. Recursos aprimorados de segurança e alinhamento. | Sistema unificado que combina vários modelos de IA. Ajusta dinamicamente sua abordagem de raciocínio com base na complexidade da tarefa. |
Codificação e foco do desenvolvedor
O Claude Sonnet 4.5 foi posicionado como o “melhor modelo de codificação do mundo”. Esta reivindicação é comprovada pelo seu desempenho líder em vários benchmarks importantes. No SWE-BEMCH Verificado, que mede a capacidade de um modelo de resolver problemas do Github do mundo real, o Sonnet 4.5 obtém 77,2%impressionantes, superando 72,8%do GPT-5. Com poder de computação adicional, a pontuação do Sonnet 4.5 salta para 82%. Além disso, no banco do terminal, um teste da capacidade de uma IA de usar uma interface da linha de comando, o Sonnet 4.5 alcançou uma taxa de sucesso de 50%, significativamente à frente dos 43,8% do GPT-5. Isso sugere que, para desenvolvedores e usuários técnicos que precisam de uma IA para executar tarefas complexas e de várias etapas em um ambiente de terminal, o Sonnet 4.5 tem uma vantagem distinta. Por outro lado, o GPT-5 é apresentado como um poderoso modelo de codificação de uso geral. Embora estabeleça novos benchmarks de última geração no momento de seu lançamento, o foco especializado do Sonnet 4.5 parece dar uma vantagem nas tarefas centradas no desenvolvedor.
Capacidades agênticas e uso do computador
Um recurso de destaque do Claude Sonnet 4.5 é sua capacidade de funcionar como um agente autônomo de longa duração. Os relatórios indicam que o modelo pode manter o foco e o desempenho em tarefas complexas por mais de 30 horas, um aumento significativo em relação aos modelos anteriores. Essa resistência é crucial para tarefas que requerem esforço sustentado, como a refatoração de código em larga escala ou uma análise aprofundada de dados. No benchmark Osworld, que avalia a capacidade de uma IA de executar tarefas do mundo real em um computador, o Sonnet 4.5 conquistou o primeiro lugar com uma taxa de sucesso de 61,4%. Essa proficiência é demonstrada em seus recursos de uso da ferramenta, onde obteve 98,0% notável no domínio das telecomunicações das avaliações do banco τ, quase dobrando o desempenho de seu antecessor e superando o GPT-5. O GPT-5, por outro lado, é projetado como um sistema unificado que pode alternar de maneira inteligente entre diferentes abordagens de raciocínio com base na complexidade da tarefa. Isso permite lidar com uma ampla variedade de tarefas com eficiência, mas não enfatiza a mesma autonomia de longa duração do Sonnet 4.5.
Raciocínio, matemática e desempenho geral
Em áreas de raciocínio geral e matemática, a competição é muito mais próxima. Na competição de matemática do Aime 2025 High School, o Sonnet 4.5 alcançou uma pontuação perfeita de 100% ao usar o Python, superando um pouco os 99,6% do GPT-5. Para o raciocínio de nível de pós-graduação, medido pelo benchmark GPQA Diamond, os modelos são altamente competitivos, com o GPT-5 mantendo uma pequena vantagem. Os primeiros relatórios do usuário e testes práticos sugerem que o Sonnet 4.5 é visivelmente mais rápido …





