Dataconomy PT
Subscribe
No Result
View All Result
Dataconomy PT
Subscribe
No Result
View All Result
Dataconomy PT
No Result
View All Result

DeepSeek revela arquitetura MODEL1 na atualização do GitHub antes da V4

byKerem Gülen
21 Janeiro 2026
in Artificial Intelligence, News
Home Artificial Intelligence
Share on FacebookShare on Twitter

DeepSeek revelou detalhes de um novo modelo designado “MODEL1” por meio de atualizações recentes em sua base de código FlashMLA em GitHub. O identificador “MODEL1” aparece 28 vezes em 114 arquivos do repositório, marcando a divulgação no aniversário de um ano do lançamento do R1 da empresa. Este desenvolvimento segue relatos de que a DeepSeek planeja lançar seu modelo V4 de próxima geração em meados de fevereiro de 2026, coincidindo com o Ano Novo Lunar. A análise da base de código atualizada pelos desenvolvedores indica que o MODEL1 apresenta uma arquitetura distinta do DeepSeek-V3.2, codinome “V32” no repositório. Discrepâncias lógicas de código sugerem mudanças no layout do cache de valores-chave, no tratamento de dispersão e na decodificação do formato de dados do FP8, apontando para reestruturação para otimização de memória e eficiência computacional. Pesquisadores da comunidade LocalLLaMA do Reddit observado a atualização do código-fonte do FlashMLA adicionou amplo suporte ao MODEL1, incluindo compatibilidade com a futura arquitetura Blackwell da Nvidia (SM100) e os atuais chips Hopper. As mudanças supostamente mostram o MODEL1 revertendo para uma dimensão unificada do padrão 512 e introduzindo recursos de “Consciência de posição de vetor de valor”, juntamente com implementações potenciais do sistema de memória condicional “Engram” recentemente publicado pela DeepSeek. O repositório FlashMLA, que abriga o kernel de decodificação Multi-Head Latent Attention do DeepSeek otimizado para GPUs Nvidia Hopper, foi a fonte das pistas técnicas. Espera-se que o modelo V4 do DeepSeek integre a arquitetura Engram, que facilita a recuperação eficiente de contextos que excedem um milhão de tokens, utilizando um sistema de pesquisa para fatos fundamentais, em vez de recalculá-los por meio de computação. Testes internos realizados por funcionários da DeepSeek sugerem que o V4 poderia superar os modelos rivais da Anthropic e OpenAI em benchmarks de codificação, especialmente com longos prompts de código. A revelação do MODEL1 ocorre quando o DeepSeek se aproxima de um ano desde sua estreia no R1 em janeiro de 2025. O lançamento do R1 resultou em uma redução de US$ 593 bilhões no valor de mercado da Nvidia em um único dia, de acordo com a ITPro. O modelo R1 da DeepSeek supostamente custou menos de US$ 6 milhões para treinar e alcançou desempenho igual ou superior ao modelo o1 da OpenAI em benchmarks de matemática e codificação. A empresa posteriormente lançou a V3.1 em agosto e a V3.2 em dezembro, com a V3.2 descrita como oferecendo desempenho equivalente ao GPT-5 da OpenAI. DeepSeek não comentou oficialmente sobre MODEL1 nem confirmou o momento de lançamento específico para V4.


Crédito da imagem em destaque

Tags: busca profundamodelo1

Related Posts

Spotify lança listas de reprodução solicitadas com tecnologia de IA

Spotify lança listas de reprodução solicitadas com tecnologia de IA

22 Janeiro 2026
Snap lança rastreamento granular do tempo de tela na atualização do Family Center

Snap lança rastreamento granular do tempo de tela na atualização do Family Center

22 Janeiro 2026
O Google Fotos redesenha o compartilhamento com carrossel imersivo em tela cheia

O Google Fotos redesenha o compartilhamento com carrossel imersivo em tela cheia

22 Janeiro 2026
NexPhone lança telefone com sistema operacional triplo por US$ 549

NexPhone lança telefone com sistema operacional triplo por US$ 549

22 Janeiro 2026
Antrópico revisa testes de contratação por conta de Claude AI

Antrópico revisa testes de contratação por conta de Claude AI

22 Janeiro 2026
Blue Origin marca lançamento no final de fevereiro para a terceira missão New Glenn

Blue Origin marca lançamento no final de fevereiro para a terceira missão New Glenn

22 Janeiro 2026

Recent Posts

  • Spotify lança listas de reprodução solicitadas com tecnologia de IA
  • Snap lança rastreamento granular do tempo de tela na atualização do Family Center
  • O Google Fotos redesenha o compartilhamento com carrossel imersivo em tela cheia
  • NexPhone lança telefone com sistema operacional triplo por US$ 549
  • Antrópico revisa testes de contratação por conta de Claude AI

Recent Comments

Nenhum comentário para mostrar.
Dataconomy PT

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.