Oráculo tem anunciado seu OCI Zettascale10, um software baseado em nuvem Supercomputador de IA afirma oferecer 16 zettaFLOPS de desempenho máximo. O sistema, utilizando 800.000 GPUs Nvidia, foi projetado para suportar cargas de trabalho de IA em grande escala desenvolvidas por parceiros, incluindo OpenAI. A empresa afirma que o sistema pode atingir um desempenho máximo de 16 zettaFLOPS distribuídos em suas 800.000 GPUs Nvidia. Este nível de saída, quando calculado por GPU, equivale a aproximadamente 20 petaflops para cada unidade. Esta métrica de desempenho individual é comparável ao resultado do chip Grace-Blackwell GB300 Ultra, um componente usado em sistemas desktop de última geração projetados especificamente para tarefas de inteligência artificial. O número total posiciona o Zettascale10 como uma entrada significativa na infraestrutura computacional de grande escala. A Oracle identificou a plataforma como a infraestrutura fundamental para o cluster Stargate da OpenAI, localizado em Abilene, Texas. Esta instalação está sendo construída para gerenciar algumas das cargas de trabalho de IA mais exigentes que emergem atualmente de iniciativas de pesquisa e aplicações comerciais. Peter Hoeschele, vice-presidente de infraestrutura e computação industrial da OpenAI, afirmou: “O design RoCE personalizado altamente escalável maximiza o desempenho de toda a malha em escala de gigawatts, enquanto mantém a maior parte da energia focada na computação”. No centro do sistema Zettascale10 está a arquitetura de rede Oracle Acceleron RoCE, que foi projetada para aprimorar a escalabilidade e a confiabilidade para operações de IA com uso intenso de dados. Este projeto emprega placas de interface de rede que funcionam como switches em miniatura, criando links diretos entre GPUs em vários planos de rede isolados. Esta configuração tem como objetivo reduzir a latência na comunicação entre GPUs. Ele também fornece redundância, permitindo que trabalhos computacionais continuem sendo processados sem interrupção, mesmo se um dos caminhos da rede apresentar falha. O papel da Nvidia no sistema foi destacado por Ian Buck, vice-presidente de Hyperscale da empresa. “Apresentando a infraestrutura de IA full-stack da Nvidia, o OCI Zettascale10 fornece a estrutura de computação necessária para avançar na pesquisa de IA de última geração e ajudar organizações em todos os lugares a passar da experimentação para a IA industrializada”, disse Buck. A Oracle também afirma que sua estrutura de rede pode reduzir custos, simplificando as camadas da estrutura da rede e, ao mesmo tempo, fornecendo desempenho consistente em todos os nós. O sistema introduz tecnologias Linear-Pluggable e Receiver Optics, destinadas a reduzir o consumo de energia e os requisitos de refrigeração sem sacrificar a largura de banda. A declaração de desempenho de 16 zettaFLOPS da Oracle não foi verificada de forma independente. As métricas de desempenho para sistemas em nuvem podem diferir com base na metodologia usada para cálculo, e os números da empresa podem ser baseados no desempenho máximo teórico, em vez de taxas operacionais sustentadas. Como a produção total anunciada do sistema é igual à soma de suas 800.000 GPUs operando em seu potencial máximo, sua eficiência no mundo real dependerá significativamente de fatores como design de rede e otimização de software. Espera-se que os analistas esperem para ver se a configuração oferece desempenho comparável aos clusters de IA estabelecidos de outros grandes provedores de nuvem. O sistema Zettascale10 foi projetado para permitir que os clientes treinem e implantem grandes modelos de IA no ambiente de nuvem distribuída da Oracle, que inclui medidas de soberania de dados. Mahesh Thiagarajan, vice-presidente executivo da Oracle Cloud Infrastructure, comentou: “Com o OCI Zettascale10, estamos fundindo a arquitetura de rede Oracle Acceleron RoCE da OCI com a infraestrutura de IA da Nvidia de próxima geração para fornecer capacidade de IA de vários gigawatts em escala incomparável”. Ele acrescentou que os clientes podem construir e treinar modelos usando menos energia e operar com “dados fortes e soberania de IA”. O sistema também oferece flexibilidade operacional por meio de manutenção independente em nível de avião, o que permite atualizações com tempo de inatividade reduzido. Os observadores notaram que outros grandes provedores de nuvem estão construindo simultaneamente seus próprios clusters de GPU em grande escala e desenvolvendo sistemas avançados de armazenamento em nuvem, o que poderia restringir qualquer vantagem competitiva detida pela Oracle. O sistema Zettascale10 está programado para lançamento no próximo ano. A sua capacidade de satisfazer a procura crescente de computação de IA escalável, eficiente e fiável será avaliada após a sua implantação.





