Nvidia para implantar interconexões de GPU à base de luz até 2026

Nvidia é planejamento Para implementar a comunicação baseada na luz entre suas GPUs de inteligência artificial até 2026, utilizando interconexões de silício fotônicas com óptica co-embalada (CPO) em suas plataformas de IA em escala de rack de próxima geração para obter maiores taxas de transferência em consumo de energia reduzido.

Na conferência Hot Chips, a NVIDIA forneceu mais detalhes sobre suas próximas soluções de interconexão Quantum-X e Spectrum-X, descrevendo sua chegada esperada em 2026. Essas soluções representam um movimento significativo em direção a interconexões ópticas para gerenciar as demandas crescentes da transferência de dados dentro de grandes clusters de AI GPU.

A linha do tempo de desenvolvimento da NVIDIA deve espelhar de perto o roteiro de cupê da TSMC (mecanismo fotônico universal compacto), que é estruturado em três fases distintas. A fase inicial envolve um mecanismo óptico projetado para conectores OSFP, facilitando as transferências de dados de 1,6 TB/s enquanto reduzem simultaneamente o consumo de energia. A segunda fase transita para as embalagens de Cowos que incorporam ópticas co-embaladas, alcançando assim as taxas de transferência de dados de 6,4 TB/s no nível da placa-mãe. A terceira fase se concentra em alcançar 12,8 TB/s nos pacotes de processador, com o objetivo de diminuir ainda mais o uso de energia e a latência.

A necessidade de CPO decorre dos desafios associados à interconexão milhares de GPUs em aglomerados de AI em larga escala, exigindo que eles operem como um sistema unificado. Essa arquitetura requer modificações nas configurações tradicionais de rede. Especificamente, em vez de cada rack ter seu próprio comutador de nível 1 (topo de rack) conectado por cabos de cobre curtos, os comutadores são realocados para o final da linha. Essa configuração estabelece um tecido consistente e de baixa latência que abrange vários racks. Essa realocação aumenta a distância entre os servidores e sua chave primária, tornando impraticável os cabos de cobre para altas velocidades, como 800 GB/s. Consequentemente, as conexões ópticas tornam-se essenciais para quase todos os links de servidor a switch e mudar de troca.

NVIDIA projeta chip B30A mais lento para atender às restrições dos EUA

O uso de módulos ópticos flugable em tais ambientes apresenta limitações inerentes. Nesses projetos, os sinais de dados saem do circuito integrado específico do aplicativo (ASIC), atravessam a placa e os conectores e são posteriormente convertidos em luz. Esse processo introduz perda elétrica significativa, atingindo aproximadamente 22 decibéis em 200 GB/s. A compensação para essa perda requer processamento complexo, o que aumenta o consumo de energia por porta para 30W. Isso, por sua vez, requer resfriamento adicional e apresenta pontos potenciais de falha. A NVIDIA afirma que esses problemas se tornam cada vez mais problemáticos à medida que a escala das implantações de IA se expande.

O CPO mitiga as desvantagens associadas aos módulos ópticos tradicionais, integrando o mecanismo de conversão óptica diretamente ao lado do Switch ASIC. Essa proximidade permite que o sinal seja acoplado à fibra quase imediatamente, ignorando a necessidade de viajar por traços elétricos estendidos. Como resultado, a perda elétrica é reduzida para 4 decibéis e o consumo de energia por porta diminui para 9W. Esse arranjo também elimina vários componentes que podem falhar potencialmente, simplificando a implementação de interconexões ópticas.

A NVIDIA afirma que a transição de transceptores plugáveis convencionais e a integração de mecanismos ópticos diretamente no Switch Silicon, facilitado pela plataforma de cupê da TSMC, produz melhorias substanciais em eficiência, confiabilidade e escalabilidade. A NVIDIA relata que o CPO oferece vantagens significativas sobre módulos tragáveis, incluindo um aumento de 3,5 vezes na eficiência de energia, uma melhoria de 64 vezes na integridade do sinal, um aumento de 10 vezes no resiliência devido à redução nos dispositivos ativos e aproximadamente 30% de tempo de implantação mais rápidos devido ao serviço mais simples e aos procedimentos de montagem.

A NVIDIA planeja introduzir plataformas de interconexão óptica baseadas em CPO para tecnologias Ethernet e Infiniband. A empresa antecipa o lançamento do Quantum-X Infiniband Switches no início de 2026. Cada interruptor foi projetado para fornecer 115 TB/s de taxa de transferência, acomodando 144 portas operando a 800 GB/s cada. O sistema também incorpora um ASIC com 14,4 TFLOPS do processamento da rede e suporta o protocolo de redução de agregação hierárquica escalável da 4ª geração da NVIDIA (Sharp), com o objetivo de reduzir a latência para operações coletivas. Esses interruptores utilizarão o resfriamento líquido.

Simultaneamente, a NVIDIA está se preparando para integrar a CPO à Ethernet através de sua plataforma Photonics Spectrum-X, agendada para lançamento na segunda metade de 2026. Esta plataforma será baseada no Spectrum-6 ASIC, que alimenta dois dispositivos distintos: o SN6810, 102,4 TB/s de Bandwidth entre 128 portas em 128 em 128 portas em 128 portas em 128 portas em 128 portas em 128, com 12810 e 102,4 tb/s de Bandwidth entre 128 portas de banda em 128 em 128, com 102,4 g/s, que 88 slin8 e 102,4 tb/s de Bandwidth entre 128 portas de Bandwid em 128, com 12810 e 102,4 g/s, que 20 sn6810, com 102,4 tb/s de Bandwidth entre 128 portas de banda de 88, com 102,4 g/s de Bandwidth entre 128 portas. Portas TB/S e 512 operando na mesma taxa. Ambos os dispositivos também empregarão resfriamento líquido.

A NVIDIA prevê que seus switches baseados em CPO direcionarão novos clusters de IA projetados para aplicativos generativos de IA, que estão se tornando cada vez mais grandes e complexos. Ao utilizar o CPO, esses clusters eliminarão milhares de componentes discretos, resultando em tempos de instalação mais rápidos, manutenção mais fácil e consumo reduzido de energia por conexão. Consequentemente, espera-se que os clusters que utilizam o Quantum-X Infiniband e o Spectrum-X fotônicos demonstrem melhorias nas métricas, como o tempo até o tempo, o tempo até o primeiro toque e a confiabilidade geral a longo prazo.

A NVIDIA enfatiza que a óptica co-embalada não é simplesmente um aprimoramento opcional, mas um requisito fundamental para futuros data centers de IA. Isso sugere que a empresa pretende posicionar suas interconexões ópticas como um diferenciador-chave e vantagem sobre as soluções de IA em escala de rack oferecidas pelos concorrentes, como a AMD. A aquisição da ENOSEMI pela AMD é relevante neste contexto.

Um aspecto crítico da iniciativa Photonics de Silício da NVIDIA é seu alinhamento próximo com a evolução da plataforma Coupe (Compact Universal Photonic Engine) da TSMC. À medida que a plataforma da TSMC avança nos próximos anos, espera -se que as plataformas de CPO da NVIDIA melhorem correspondentemente. A primeira geração do cupê do TSMC é construída empilhando um circuito integrado eletrônico de 65nm (EIC) com um circuito integrado fotônico (PIC) usando a tecnologia de embalagem SOIC-X da empresa.

O roteiro do TSMC Coupe é dividido em três estágios de desenvolvimento. A geração inicial envolve um mecanismo óptico projetado para conectores OSFP, fornecendo 1,6 TB/s de transferência de dados enquanto reduz simultaneamente o consumo de energia. A segunda geração incorpora embalagens de Cowos com óptica co-embalada, resultando em uma taxa de transferência de dados de 6,4 TB/s no nível da placa-mãe. A terceira geração foi projetada para atingir 12,8 TB/s nos pacotes de processador e visa reduzir ainda mais o consumo e a latência de energia.

Crédito da imagem em destaque