Dataconomy PT
Subscribe
No Result
View All Result
Dataconomy PT
Subscribe
No Result
View All Result
Dataconomy PT
No Result
View All Result

DeepSeek apresenta hiperconexões com restrição múltipla para R2

byKerem Gülen
6 Janeiro 2026
in News, Research
Home News
Share on FacebookShare on Twitter

Pouco antes do início do novo ano, a comunidade de inteligência artificial foi apresentada a um avanço potencial no treinamento de modelos. Uma equipe de pesquisadores da empresa chinesa de IA DeepSeek divulgou um papel delineando uma nova abordagem arquitetônica chamada Manifold-Constrained Hyper-Connections, ou mHC, para abreviar. Esta nova metodologia pode fornecer um caminho para os engenheiros construírem e dimensionarem grandes modelos de linguagem sem os custos computacionais proibitivos e o capital normalmente exigido.

DeepSeek conquistou pela primeira vez os holofotes culturais há um ano com o lançamento do R1. Esse modelo rivalizava com as capacidades do o1 da OpenAI, mas teria sido treinado por uma fração do custo. O lançamento foi um choque para os desenvolvedores baseados nos EUA porque desafiou a suposição de que apenas enormes reservas de capital e hardware poderiam produzir IA de ponta. O artigo mHC recém-publicado, hospedado no servidor de pré-impressão arXiv, poderia servir como estrutura tecnológica para o próximo modelo da DeepSeek, R2. O modelo R2 era originalmente esperado para meados de 2025, mas foi adiado, supostamente devido a preocupações do CEO Liang Wenfeng em relação ao desempenho e ao acesso limitado da China a chips avançados de IA.

O novo artigo tenta colmatar uma lacuna técnica complexa que atualmente dificulta a escalabilidade da IA. Grandes modelos de linguagem são construídos sobre redes neurais projetadas para conservar sinais em muitas camadas. Porém, à medida que o modelo cresce e mais camadas são adicionadas, o sinal pode ficar atenuado ou degradado, aumentando o risco de se transformar em ruído. Os pesquisadores comparam isso a um jogo de “telefone”: quanto mais pessoas envolvidas na cadeia, maior a chance de a mensagem original ficar confusa ou alterada. O principal desafio da engenharia é otimizar o equilíbrio entre plasticidade e estabilidade, garantindo que os sinais sejam conservados em tantas camadas quanto possível, sem degradação.

Os autores do artigo, incluindo o CEO Liang Wenfeng, construíram suas pesquisas sobre hiperconexões (HCs), uma estrutura introduzida em 2024 por pesquisadores da ByteDance. Os HCs padrão diversificam os canais através dos quais as camadas da rede neural compartilham informações, mas apresentam o risco de perda de sinal e acarretam altos custos de memória que os tornam difíceis de implementar em escala. A arquitetura mHC do DeepSeek visa resolver isso restringindo a hiperconectividade dentro de um modelo. Essa abordagem preserva a complexidade informacional possibilitada pelos HCs, ao mesmo tempo que evita problemas de memória, permitindo o treinamento de modelos altamente complexos de uma forma prática mesmo para desenvolvedores com recursos limitados.

A estreia da estrutura mHC sugere um pivô na evolução do desenvolvimento da IA. Até recentemente, a sabedoria prevalecente na indústria sustentava que apenas as empresas mais ricas podiam dar-se ao luxo de construir modelos de fronteira. A DeepSeek continua a demonstrar que avanços podem ser alcançados através de engenharia inteligente, em vez de força financeira bruta. Ao publicar esta pesquisa, a DeepSeek disponibilizou o método mHC para desenvolvedores menores, potencialmente democratizando o acesso a recursos avançados de IA se esta arquitetura for bem-sucedida no modelo R2 antecipado.


Crédito da imagem em destaque

Tags: busca profundaIA

Related Posts

Sem lista de espera: Claude Health chega para usuários US Pro e Max

Sem lista de espera: Claude Health chega para usuários US Pro e Max

12 Janeiro 2026
O Google remove as visões gerais de IA para algumas consultas de saúde

O Google remove as visões gerais de IA para algumas consultas de saúde

12 Janeiro 2026
Novo sensor ISOCELL vazou para Galaxy S27 Ultra

Novo sensor ISOCELL vazou para Galaxy S27 Ultra

12 Janeiro 2026
iOS 26.4: Apple Health recebe uma grande reformulação

iOS 26.4: Apple Health recebe uma grande reformulação

12 Janeiro 2026
Google Cloud lança agentes de compras Gemini Enterprise

Google Cloud lança agentes de compras Gemini Enterprise

12 Janeiro 2026
Xiaomi busca total independência com novo chip e sistema operacional

Xiaomi busca total independência com novo chip e sistema operacional

12 Janeiro 2026

Recent Posts

  • Sem lista de espera: Claude Health chega para usuários US Pro e Max
  • O Google remove as visões gerais de IA para algumas consultas de saúde
  • Indonésia e Malásia bloqueiam Grok por causa de deepfakes sexualizados
  • Anthropic e Allianz se unem para trazer IA transparente ao setor de seguros
  • Novo sensor ISOCELL vazou para Galaxy S27 Ultra

Recent Comments

Nenhum comentário para mostrar.
Dataconomy PT

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.