Dataconomy PT
Subscribe
No Result
View All Result
Dataconomy PT
Subscribe
No Result
View All Result
Dataconomy PT
No Result
View All Result

DeepSeek apresenta hiperconexões com restrição múltipla para R2

byKerem Gülen
6 Janeiro 2026
in News, Research
Home News
Share on FacebookShare on Twitter

Pouco antes do início do novo ano, a comunidade de inteligência artificial foi apresentada a um avanço potencial no treinamento de modelos. Uma equipe de pesquisadores da empresa chinesa de IA DeepSeek divulgou um papel delineando uma nova abordagem arquitetônica chamada Manifold-Constrained Hyper-Connections, ou mHC, para abreviar. Esta nova metodologia pode fornecer um caminho para os engenheiros construírem e dimensionarem grandes modelos de linguagem sem os custos computacionais proibitivos e o capital normalmente exigido.

DeepSeek conquistou pela primeira vez os holofotes culturais há um ano com o lançamento do R1. Esse modelo rivalizava com as capacidades do o1 da OpenAI, mas teria sido treinado por uma fração do custo. O lançamento foi um choque para os desenvolvedores baseados nos EUA porque desafiou a suposição de que apenas enormes reservas de capital e hardware poderiam produzir IA de ponta. O artigo mHC recém-publicado, hospedado no servidor de pré-impressão arXiv, poderia servir como estrutura tecnológica para o próximo modelo da DeepSeek, R2. O modelo R2 era originalmente esperado para meados de 2025, mas foi adiado, supostamente devido a preocupações do CEO Liang Wenfeng em relação ao desempenho e ao acesso limitado da China a chips avançados de IA.

O novo artigo tenta colmatar uma lacuna técnica complexa que atualmente dificulta a escalabilidade da IA. Grandes modelos de linguagem são construídos sobre redes neurais projetadas para conservar sinais em muitas camadas. Porém, à medida que o modelo cresce e mais camadas são adicionadas, o sinal pode ficar atenuado ou degradado, aumentando o risco de se transformar em ruído. Os pesquisadores comparam isso a um jogo de “telefone”: quanto mais pessoas envolvidas na cadeia, maior a chance de a mensagem original ficar confusa ou alterada. O principal desafio da engenharia é otimizar o equilíbrio entre plasticidade e estabilidade, garantindo que os sinais sejam conservados em tantas camadas quanto possível, sem degradação.

Os autores do artigo, incluindo o CEO Liang Wenfeng, construíram suas pesquisas sobre hiperconexões (HCs), uma estrutura introduzida em 2024 por pesquisadores da ByteDance. Os HCs padrão diversificam os canais através dos quais as camadas da rede neural compartilham informações, mas apresentam o risco de perda de sinal e acarretam altos custos de memória que os tornam difíceis de implementar em escala. A arquitetura mHC do DeepSeek visa resolver isso restringindo a hiperconectividade dentro de um modelo. Essa abordagem preserva a complexidade informacional possibilitada pelos HCs, ao mesmo tempo que evita problemas de memória, permitindo o treinamento de modelos altamente complexos de uma forma prática mesmo para desenvolvedores com recursos limitados.

A estreia da estrutura mHC sugere um pivô na evolução do desenvolvimento da IA. Até recentemente, a sabedoria prevalecente na indústria sustentava que apenas as empresas mais ricas podiam dar-se ao luxo de construir modelos de fronteira. A DeepSeek continua a demonstrar que avanços podem ser alcançados através de engenharia inteligente, em vez de força financeira bruta. Ao publicar esta pesquisa, a DeepSeek disponibilizou o método mHC para desenvolvedores menores, potencialmente democratizando o acesso a recursos avançados de IA se esta arquitetura for bem-sucedida no modelo R2 antecipado.


Crédito da imagem em destaque

Tags: busca profundaIA

Related Posts

Escassez global de chips de memória faz disparar preços de PCs

Escassez global de chips de memória faz disparar preços de PCs

14 Janeiro 2026
Amazon força upgrade de membros Prime para Alexa+

Amazon força upgrade de membros Prime para Alexa+

14 Janeiro 2026
Crianças enganam Roblox com fotos de Kurt Cobain para contornar proibições de bate-papo

Crianças enganam Roblox com fotos de Kurt Cobain para contornar proibições de bate-papo

14 Janeiro 2026
Resident Evil Requiem é o centro das atenções no evento de 15 de janeiro

Resident Evil Requiem é o centro das atenções no evento de 15 de janeiro

14 Janeiro 2026
Google Meet adiciona check-in automático de salas usando ultrassom

Google Meet adiciona check-in automático de salas usando ultrassom

14 Janeiro 2026
Conheça o Apple Creator Studio: US$ 12,99 para 6 aplicativos profissionais

Conheça o Apple Creator Studio: US$ 12,99 para 6 aplicativos profissionais

14 Janeiro 2026

Recent Posts

  • Escassez global de chips de memória faz disparar preços de PCs
  • OpenAI adquire Torch para melhorar o ChatGPT Health
  • Amazon força upgrade de membros Prime para Alexa+
  • Crianças enganam Roblox com fotos de Kurt Cobain para contornar proibições de bate-papo
  • O sonho do metaverso da Meta desaparece quando 1.000 funcionários são demitidos

Recent Comments

Nenhum comentário para mostrar.
Dataconomy PT

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.