DeepSeek apresenta hiperconexões com restrição múltipla para R2

Pouco antes do início do novo ano, a comunidade de inteligência artificial foi apresentada a um avanço potencial no treinamento de modelos. Uma equipe de pesquisadores da empresa chinesa de IA DeepSeek divulgou um papel delineando uma nova abordagem arquitetônica chamada Manifold-Constrained Hyper-Connections, ou mHC, para abreviar. Esta nova metodologia pode fornecer um caminho para os engenheiros construírem e dimensionarem grandes modelos de linguagem sem os custos computacionais proibitivos e o capital normalmente exigido.

DeepSeek conquistou pela primeira vez os holofotes culturais há um ano com o lançamento do R1. Esse modelo rivalizava com as capacidades do o1 da OpenAI, mas teria sido treinado por uma fração do custo. O lançamento foi um choque para os desenvolvedores baseados nos EUA porque desafiou a suposição de que apenas enormes reservas de capital e hardware poderiam produzir IA de ponta. O artigo mHC recém-publicado, hospedado no servidor de pré-impressão arXiv, poderia servir como estrutura tecnológica para o próximo modelo da DeepSeek, R2. O modelo R2 era originalmente esperado para meados de 2025, mas foi adiado, supostamente devido a preocupações do CEO Liang Wenfeng em relação ao desempenho e ao acesso limitado da China a chips avançados de IA.

O novo artigo tenta colmatar uma lacuna técnica complexa que atualmente dificulta a escalabilidade da IA. Grandes modelos de linguagem são construídos sobre redes neurais projetadas para conservar sinais em muitas camadas. Porém, à medida que o modelo cresce e mais camadas são adicionadas, o sinal pode ficar atenuado ou degradado, aumentando o risco de se transformar em ruído. Os pesquisadores comparam isso a um jogo de “telefone”: quanto mais pessoas envolvidas na cadeia, maior a chance de a mensagem original ficar confusa ou alterada. O principal desafio da engenharia é otimizar o equilíbrio entre plasticidade e estabilidade, garantindo que os sinais sejam conservados em tantas camadas quanto possível, sem degradação.

Os autores do artigo, incluindo o CEO Liang Wenfeng, construíram suas pesquisas sobre hiperconexões (HCs), uma estrutura introduzida em 2024 por pesquisadores da ByteDance. Os HCs padrão diversificam os canais através dos quais as camadas da rede neural compartilham informações, mas apresentam o risco de perda de sinal e acarretam altos custos de memória que os tornam difíceis de implementar em escala. A arquitetura mHC do DeepSeek visa resolver isso restringindo a hiperconectividade dentro de um modelo. Essa abordagem preserva a complexidade informacional possibilitada pelos HCs, ao mesmo tempo que evita problemas de memória, permitindo o treinamento de modelos altamente complexos de uma forma prática mesmo para desenvolvedores com recursos limitados.

A estreia da estrutura mHC sugere um pivô na evolução do desenvolvimento da IA. Até recentemente, a sabedoria prevalecente na indústria sustentava que apenas as empresas mais ricas podiam dar-se ao luxo de construir modelos de fronteira. A DeepSeek continua a demonstrar que avanços podem ser alcançados através de engenharia inteligente, em vez de força financeira bruta. Ao publicar esta pesquisa, a DeepSeek disponibilizou o método mHC para desenvolvedores menores, potencialmente democratizando o acesso a recursos avançados de IA se esta arquitetura for bem-sucedida no modelo R2 antecipado.

Crédito da imagem em destaque