Deepseek v3.1 rival GPT-5 com modelo de parâmetro 685b

Em janeiro de 2025, a Deepseek, uma startup de IA chinesa, lançou o R1, um modelo de IA que rivalizava com o LLMS de primeira linha do OpenAI e Anthrópico. Construído por uma fração do custo com menos chips da NVIDIA, a Deepseek lançou agora a v3.1, uma atualização para o seu modelo V3, com preços reduzidos para o OpenAI e otimizado para chips fabricados em chinês.

O V3.1 da Deepseek foi lançado silenciosamente através de uma mensagem no WeChat, uma proeminente mensagens chinesas e aplicação social e na plataforma de rosto de abraço. Esse desenvolvimento ressalta várias narrativas -chave na paisagem atual da IA. Os esforços da Deepseek são centrais na ambição da China de desenvolver e controlar sistemas avançados de IA independentemente da tecnologia estrangeira.

O novo modelo Deepseek V3 é otimizado especificamente para ter um desempenho efetivo em chips fabricados em chinês, refletindo o movimento estratégico da China em direção à autoconfiança tecnológica. Embora as empresas americanas tenham demonstrado relutância em adotar os modelos da Deepseek, elas ganharam uma tração considerável na China e estão sendo cada vez mais usadas em outras regiões em todo o mundo. Algumas empresas americanas até integraram o modelo de raciocínio R1 da Deepseek em suas aplicações. Os pesquisadores, no entanto, advertem que os resultados desses modelos geralmente se alinham com as narrativas aprovadas pelo Partido Comunista Chinês, levantando preocupações com sua neutralidade e confiabilidade.

As ambições de IA da China se estendem além do Deepseek, com outros modelos notáveis, incluindo Qwen do Alibaba, Kimi, de Moonshot AI, e Ernie, de Baidu. O lançamento recente de Deepseek, seguindo de perto depois Lançamento do GPT-5 do Openaienfatiza o compromisso da China em manter o ritmo ou superar, liderando os laboratórios da IA. O lançamento do GPT-5 ficou aquém das expectativas da indústria, destacando ainda mais a importância dos avanços de Deepseek.

O CEO da Openai, Sam Altman, reconheceu que a concorrência de modelos de código aberto chinês, incluindo Deepseek, influenciou a decisão da OpenAI de lançar seus próprios modelos de peso aberto. Durante uma discussão recente com os repórteres, Altman afirmou que, se o Openai não tivesse dado esse passo, a paisagem da IA provavelmente seria dominada pelos modelos chineses de código aberto. Ele enfatizou que essa consideração foi um fator significativo no processo de tomada de decisão.

O governo dos EUA concedeu licenças da NVIDIA e da AMD para exportar chips de IA específicos para a China, incluindo o H20 da NVIDIA. Essas licenças estão condicionadas às empresas que concordam em remeter 15% da receita dessas vendas ao governo dos EUA. Em resposta, Pequim se moveu para restringir as compras de chips nvidia. Isso se seguiu à declaração do secretário de comércio Howard Lutnick sobre CNBC Que os EUA não vendam a China é o melhor, o segundo melhor ou até a terceira melhor tecnologia.

A otimização da Deepseek para chips fabricados em chinês indica uma mudança estratégica para combater os controles de exportação dos EUA e diminuir a dependência da NVIDIA. A empresa declarou em seu anúncio do WeChat que o novo formato de modelo é otimizado para “chips domésticos de próxima geração em breve lançados”.

Altman expressou preocupações de que os EUA possam subestimar a complexidade e o significado dos avanços da China na IA. Ele alertou que os controles de exportação por si só podem não ser suficientes para enfrentar os desafios representados pelo rápido progresso da China. Ele expressou suas preocupações com as crescentes capacidades da China no campo da inteligência artificial.

O modelo Deepseek V3.1 incorpora avanços técnicos que são principalmente benéficos para os desenvolvedores. Essas inovações visam reduzir os custos operacionais e aumentar a versatilidade em comparação com muitos modelos concorrentes fechados e mais caros. A v3.1 possui 685 bilhões de parâmetros, colocando -o entre os principais modelos de “fronteira”. Seu design de “mistura de especialistas” ativa apenas uma fração do modelo para cada consulta, reduzindo os custos de computação para os desenvolvedores. Ao contrário dos modelos anteriores do Deepseek, que separavam tarefas que exigem respostas instantâneas daqueles que precisam de raciocínio passo a passo, a v3.1 integra ambos os recursos em um único sistema.

O GPT-5, juntamente com modelos recentes do Antrópico e do Google, também apresentam esse recurso integrado. No entanto, poucos modelos de peso aberto alcançaram esse nível de integração. Ben Dickson, fundador do Blog do TechTalks, descreve a arquitetura híbrida da V3.1 como “o maior recurso de longe”.

William Falcon, fundador e CEO da IA Lightning, observou que as melhorias contínuas de Deepseek são dignas de nota, mesmo que a v3.1 não seja um salto tão significativo quanto o modelo R1 anterior. Ele afirmou que a empresa continua fazendo “melhorias não marginais”, o que é impressionante. A Falcon prevê que o OpenAI responderá se seu modelo de código aberto começar a ficar significativamente. Ele também apontou que o modelo Deepseek é mais desafiador para os desenvolvedores implantarem na produção em comparação com a versão do OpenAI, que é relativamente fácil de implantar.

O lançamento de Deepseek destaca a crescente percepção da IA como um componente -chave de uma competição tecnológica entre os EUA e a China. O fato de as empresas chinesas alegarem criar modelos de IA superiores a um custo reduzido, fornece aos concorrentes dos EUA motivos para avaliar cuidadosamente sua estratégia para manter a liderança no campo.

Crédito da imagem em destaque