DeepSeek revela arquitetura MODEL1 na atualização do GitHub antes da V4

DeepSeek revelou detalhes de um novo modelo designado “MODEL1” por meio de atualizações recentes em sua base de código FlashMLA em GitHub. O identificador “MODEL1” aparece 28 vezes em 114 arquivos do repositório, marcando a divulgação no aniversário de um ano do lançamento do R1 da empresa. Este desenvolvimento segue relatos de que a DeepSeek planeja lançar seu modelo V4 de próxima geração em meados de fevereiro de 2026, coincidindo com o Ano Novo Lunar. A análise da base de código atualizada pelos desenvolvedores indica que o MODEL1 apresenta uma arquitetura distinta do DeepSeek-V3.2, codinome “V32” no repositório. Discrepâncias lógicas de código sugerem mudanças no layout do cache de valores-chave, no tratamento de dispersão e na decodificação do formato de dados do FP8, apontando para reestruturação para otimização de memória e eficiência computacional. Pesquisadores da comunidade LocalLLaMA do Reddit observado a atualização do código-fonte do FlashMLA adicionou amplo suporte ao MODEL1, incluindo compatibilidade com a futura arquitetura Blackwell da Nvidia (SM100) e os atuais chips Hopper. As mudanças supostamente mostram o MODEL1 revertendo para uma dimensão unificada do padrão 512 e introduzindo recursos de “Consciência de posição de vetor de valor”, juntamente com implementações potenciais do sistema de memória condicional “Engram” recentemente publicado pela DeepSeek. O repositório FlashMLA, que abriga o kernel de decodificação Multi-Head Latent Attention do DeepSeek otimizado para GPUs Nvidia Hopper, foi a fonte das pistas técnicas. Espera-se que o modelo V4 do DeepSeek integre a arquitetura Engram, que facilita a recuperação eficiente de contextos que excedem um milhão de tokens, utilizando um sistema de pesquisa para fatos fundamentais, em vez de recalculá-los por meio de computação. Testes internos realizados por funcionários da DeepSeek sugerem que o V4 poderia superar os modelos rivais da Anthropic e OpenAI em benchmarks de codificação, especialmente com longos prompts de código. A revelação do MODEL1 ocorre quando o DeepSeek se aproxima de um ano desde sua estreia no R1 em janeiro de 2025. O lançamento do R1 resultou em uma redução de US$ 593 bilhões no valor de mercado da Nvidia em um único dia, de acordo com a ITPro. O modelo R1 da DeepSeek supostamente custou menos de US$ 6 milhões para treinar e alcançou desempenho igual ou superior ao modelo o1 da OpenAI em benchmarks de matemática e codificação. A empresa posteriormente lançou a V3.1 em agosto e a V3.2 em dezembro, com a V3.2 descrita como oferecendo desempenho equivalente ao GPT-5 da OpenAI. DeepSeek não comentou oficialmente sobre MODEL1 nem confirmou o momento de lançamento específico para V4.

Crédito da imagem em destaque

No Result