Elon Musk mais uma vez ganhou as manchetes ao dar ao mundo um vislumbre do Cortex, o supercomputador de treinamento de IA da X, atualmente em construção. Fábrica da Tesla em Giga Texas. Em um vídeo que é ao mesmo tempo inspirador e surreal, Musk mostrou como realmente parece um incrível US$ 1 bilhão em GPUs de IA. Mas se isso não bastasse para deixar os entusiastas da tecnologia de queixo caído, Musk recentemente acessou sua plataforma, X, para revelar que o verdadeiro showstopper — Colossus, um cluster de treinamento H100 de 100.000 — entrou oficialmente online.
O que exatamente são clusters de IA?
Um cluster de IA como um cérebro gigante composto por milhares de computadores trabalhando juntos para processar quantidades massivas de informações na velocidade da luz. Em vez de um único computador, clusters como o Colossus usam milhares de máquinas especializadas, cada uma equipada com chips poderosos (chamados GPUs), projetados para lidar com os cálculos incrivelmente complexos necessários para a inteligência artificial.
Esses clusters treinam modelos de IA alimentando-os com grandes quantidades de dados. Pense nisso como ensinar um aluno, dando a ele milhares de livros para ler em um curto espaço de tempo.
Todos os detalhes sobre o Colossus da xAI
Musk não poupou os direitos de se gabar, afirmando que o Colossus é “o sistema de treinamento de IA mais poderoso do mundo”. Ainda mais impressionante é o fato de que esse projeto gigantesco foi construído “do início ao fim” em apenas 122 dias.
Considerando a escala e a complexidade envolvidas, isso não é pouca coisa. Os servidores para o cluster xAI foram fornecidos pela Dell e pela Supermicro, e embora Musk não tenha divulgado um número exato, as estimativas colocam o custo entre impressionantes US$ 3 a US$ 4 bilhões.
Este fim de semana, o @xAI equipe colocou nosso cluster de treinamento Colossus 100k H100 online. Do início ao fim, foi feito em 122 dias.
Colossus é o sistema de treinamento de IA mais poderoso do mundo. Além disso, ele dobrará de tamanho para 200k (50k H200s) em alguns meses.
Excelente…
— Elon Musk (@elonmusk) 2 de setembro de 2024
Agora é aqui que as coisas ficam realmente interessantes. Embora o sistema esteja operacional, não está claro exatamente quantos desses clusters estão totalmente funcionais hoje. Isso não é incomum com sistemas dessa magnitude, pois eles exigem depuração e otimização extensivas antes de estarem funcionando a todo vapor. Mas quando você está lidando com algo na escala do Colossus, cada detalhe conta, e até mesmo uma fração de seu potencial total pode superar a maioria dos outros sistemas.
O futuro parece ainda mais intenso. O Colossus deve dobrar de tamanho, com planos de adicionar mais 100.000 GPUs, divididas entre as atuais unidades H100 da Nvidia e os tão aguardados chips H200. Esta atualização impulsionará principalmente o treinamento do mais recente e avançado modelo de IA da xAI, o Grok-3, que visa expandir os limites do que consideramos possível em IA.
Crédito da imagem em destaque: BolíviaInteligente/Unsplash