Dataconomy PT
Subscribe
No Result
View All Result
Dataconomy PT
Subscribe
No Result
View All Result
Dataconomy PT
No Result
View All Result

Nvidia atinge 200 teraFLOP emulados FP64 para computação científica

byKerem Gülen
19 Janeiro 2026
in Notícias, Tech
Home Notícias
Share on FacebookShare on Twitter
Google Preferred Source

A Nvidia está empregando emulação de software para melhorar o desempenho da computação de ponto flutuante de precisão dupla (FP64) em seus aceleradores de IA para computação de alto desempenho (HPC) e aplicações científicas, de acordo com O Registro. Essa estratégia surge no momento em que a empresa revela suas GPUs Rubin, que oferecem 33 teraFLOPS de desempenho máximo do FP64, uma redução de 1 teraFLOP em relação à GPU H100. As bibliotecas CUDA da Nvidia podem atingir até 200 teraFLOPS de desempenho de matriz FP64 por meio de emulação de software, representando um aumento de 4,4x em relação às capacidades de hardware dos aceleradores Blackwell. Dan Ernst, diretor sênior de produtos de supercomputação da Nvidia, afirmou que a precisão da emulação corresponde ou excede a do hardware de núcleo tensor. No entanto, Nicholas Malaya, bolsista da AMD, questionou a eficácia do FP64 emulado em simulações físicas científicas em comparação com benchmarks. O FP64 continua crítico para a computação científica devido à sua faixa dinâmica, capaz de expressar mais de 18,44 quintilhões de valores únicos, em contraste com os 256 valores únicos do FP8 usados ​​em modelos de IA. As simulações de HPC, diferentemente das cargas de trabalho de IA, exigem alta precisão para evitar a propagação de erros que podem levar à instabilidade do sistema, de acordo com Malaya. O conceito de usar tipos de dados de baixa precisão para emular o FP64 remonta a meados do século XX. No início de 2024, pesquisadores dos institutos de tecnologia de Tóquio e Shibaura publicaram um artigo demonstrando que as operações da matriz FP64 poderiam ser decompostas em múltiplas operações INT8 nos núcleos tensores da Nvidia, alcançando desempenho superior ao nativo. Este método, conhecido como esquema Ozaki, forma a base para as bibliotecas de emulação FP64 da Nvidia, lançadas no final do ano passado. Ernst confirmou que a computação emulada mantém a precisão do FP64, diferindo apenas no método de execução do hardware. As GPUs modernas apresentam núcleos tensores de baixa precisão, como os do Rubin, que oferecem 35 petaFLOPS de computação FP4 densa. Esses núcleos são 1.000 vezes mais rápidos que os componentes específicos do FP64. Ernst explicou que a eficiência desses núcleos de baixa precisão levou a explorar seu uso para emulação FP64, alinhando-se com a tendência histórica na supercomputação de aproveitar o hardware disponível. A AMD expressou reservas quanto à precisão da emulação FP64. Malaya observou que a abordagem funciona bem para sistemas numéricos bem condicionados, como benchmarks High Performance Linpack (HPL), mas pode falhar em sistemas menos condicionados encontrados em ciência de materiais ou códigos de combustão. Ele também destacou que os algoritmos da Nvidia para emulação FP64 não são totalmente compatíveis com IEEE, não levando em conta nuances como zeros positivos versus negativos ou erros “não é um número”. Essas discrepâncias podem levar a pequenos erros que se propagam e afetam os resultados finais. Malaya acrescentou que o esquema Ozaki duplica aproximadamente o consumo de memória para matrizes FP64. O próximo MI430X da AMD melhorará especificamente o desempenho de hardware de precisão dupla e simples usando sua arquitetura de chiplet. Ernst reconheceu algumas limitações, mas afirmou que questões como zeros positivos/negativos não são críticas para a maioria dos profissionais de HPC. A Nvidia desenvolveu algoritmos complementares para detectar e mitigar problemas como não-números e números infinitos. Ele afirmou que o aumento da sobrecarga de memória é relativo à operação, não ao aplicativo inteiro, com matrizes típicas sendo de alguns gigabytes. Ernst argumentou que os problemas de conformidade com o IEEE muitas vezes não surgem em casos de multiplicação de matrizes, especialmente em operações DGEMM. A emulação beneficia principalmente um subconjunto de aplicativos HPC que dependem de operações de multiplicação de matrizes gerais densas (DGEMM). Malaya estimou que 60% a 70% das cargas de trabalho de HPC, especialmente aquelas que dependem do vetor FMA, veem pouco ou nenhum benefício com a emulação. Para cargas de trabalho com muitos vetores, como dinâmica de fluidos computacional, as GPUs Rubin da Nvidia devem usar aceleradores vetoriais FP64 mais lentos em seus núcleos CUDA. Ernst respondeu que os FLOPS teóricos nem sempre se traduzem em desempenho utilizável, especialmente quando a largura de banda da memória atua como um gargalo. Espera-se que Rubin, com 22 TB/s de memória HBM4, ofereça maior desempenho no mundo real nessas cargas de trabalho, apesar do desempenho mais lento do vetor FP64. A viabilidade da emulação FP64 será testada à medida que novos supercomputadores incorporando as GPUs Blackwell e Rubin da Nvidia se tornarem operacionais. Os algoritmos podem melhorar com o tempo devido à sua natureza baseada em software. Malaya indicou que a AMD também está explorando a emulação FP64 em chips como o MI355X por meio de sinalizadores de software. Ele enfatizou que a conformidade com o IEEE validaria a abordagem, garantindo a consistência dos resultados com silício dedicado. Malaya sugeriu que a comunidade estabelecesse um conjunto de aplicativos para avaliar a confiabilidade da emulação em diferentes casos de uso.


Crédito da imagem em destaque

Tags: Nvidia

Related Posts

Sony revela God of War: Laufey para PS5

Sony revela God of War: Laufey para PS5

3 Junho 2026
Microsoft lança Surface RTX Spark Dev Box para cargas de trabalho de IA

Microsoft lança Surface RTX Spark Dev Box para cargas de trabalho de IA

3 Junho 2026
Anthropic convida mais 150 organizações para o Projeto Glasswing

Anthropic convida mais 150 organizações para o Projeto Glasswing

3 Junho 2026
Junho Android Drop traz ferramentas de segurança e recursos de pesquisa mais inteligentes

Junho Android Drop traz ferramentas de segurança e recursos de pesquisa mais inteligentes

3 Junho 2026
Microsoft revela Projeto Solara para um futuro com agentes em primeiro lugar

Microsoft revela Projeto Solara para um futuro com agentes em primeiro lugar

3 Junho 2026
X lança respostas de vídeo no estilo TikTok para postagens

X lança respostas de vídeo no estilo TikTok para postagens

3 Junho 2026

Recent Posts

  • As regras de desativação da pesquisa de IA do Google estimulam o lançamento do navegador Enviromates
  • Sony revela God of War: Laufey para PS5
  • Pesquisadores desbloqueiam aprimoramento de 20 vezes em experimentos com laser ultrarrápido
  • Microsoft lança Surface RTX Spark Dev Box para cargas de trabalho de IA
  • Os novos chips Core Ultra da Intel estão supostamente em falta

Recent Comments

Nenhum comentário para mostrar.
Dataconomy PT

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies to improve your experience. You can choose to accept or reject them. Visit our Privacy Policy.