As GPUs Blackwell da Nvidia enfrentam desafios de superaquecimento que afetam os principais clientes de tecnologia. Os processadores da próxima geração estão lutando para funcionar de maneira eficaz em racks de servidores que abrigam 72 GPUs, levantando preocupações para empresas como Google, Meta e Microsoft sobre a implantação oportuna. Os relatórios indicam que a Nvidia está reavaliando seus designs de rack várias vezes devido a esses problemas de superaquecimento, que podem danificar componentes e limitar o desempenho da GPU. O consumo de energia previsto para essas configurações é de até 120 kW por rack.
Insiders informados A Informação que as GPUs Blackwell da Nvidia para IA e computação de alto desempenho (HPC) superaqueceram em servidores de alta capacidade, afetando os cronogramas de lançamento para clientes que dependem dessas tecnologias. Numa tentativa de resolver as complicações decorrentes destes problemas de sobreaquecimento, a Nvidia solicitou aos seus fornecedores que modificassem repetidamente os designs dos racks. Um porta-voz da Nvidia enfatizou sua abordagem colaborativa com serviços em nuvem, descrevendo as mudanças de design como uma parte rotineira do processo de desenvolvimento.
Ajustes no design para neutralizar problemas de superaquecimento
Anteriormente, os atrasos na rampa de produção da Blackwell eram atribuídos a uma falha de projeto que “eliminava o rendimento”. O GPUs Blackwell B100 e B200 utilizam a tecnologia de empacotamento CoWoS-L da TSMC, que integra dois chips para velocidades aprimoradas de transferência de dados de até 10 TB/s. No entanto, uma incompatibilidade nas características de expansão térmica entre os chips da GPU e outros componentes levou a distorções e falhas no sistema. Para resolver isso, a Nvidia fez modificações nas camadas metálicas e estruturas de relevo do silício da GPU.
O resultado dessas melhorias só entrou em produção em massa no final de outubro, com as datas de envio previstas adiadas para o final de janeiro. Este atraso é crítico para clientes da Nvidia como Google, metae Microsoftque dependem dessas GPUs para aprimorar seus modelos de IA mais poderosos. A Nvidia já elogiou os chips Blackwell como sendo 30 vezes mais rápidos para tarefas como responder a consultas de chatbot em comparação com modelos anteriores.
A receita do chip Blackwell da Nvidia foi projetada para atingir US$ 6 bilhões no próximo trimestre, destacando a alta demanda, apesar das contínuas restrições de oferta. A Nvidia, que ultrapassou recentemente a Apple, é agora a empresa mais valiosa do mundo, com uma capitalização de mercado que ascende a 3,482 biliões de dólares. No entanto, os contínuos contratempos relativos aos processadores Blackwell ameaçam perturbar os avanços planeados nas capacidades de IA, essenciais para os principais intervenientes tecnológicos.
Crédito da imagem em destaque: Nvidia