Microsoft anunciado o chip Maia 200 na segunda-feira para dimensionar a inferência de IA, apresentando mais de 100 bilhões de transistores para velocidades mais rápidas e maior eficiência do que o 2023 Maia 100. O Maia 200 oferece mais de 10 petaflops com precisão de 4 bits e aproximadamente 5 petaflops com desempenho de 8 bits. A Microsoft o chama de burro de carga de silício projetado especificamente para tarefas de inferência de IA. Este processo envolve a execução de modelos de IA treinados para gerar resultados, distintos da fase de treinamento que constrói esses modelos. À medida que as operações de IA se expandem, a inferência representa agora uma parcela crescente das despesas totais de computação, impulsionando esforços para simplificá-la. A empresa posiciona o Maia 200 para reduzir interrupções operacionais e consumo de energia em implantações de IA. Um único nó equipado com o chip lida com os maiores modelos atuais de IA, deixando capacidade para outros substancialmente maiores no futuro. A Microsoft declarou: “Em termos práticos, um nó Maia 200 pode executar facilmente os maiores modelos atuais, com bastante espaço para modelos ainda maiores no futuro”. Este lançamento está alinhado com um padrão entre as principais empresas de tecnologia que desenvolvem processadores personalizados para diminuir a dependência das unidades de processamento gráfico da Nvidia, que dominam as cargas de trabalho de IA. As GPUs Nvidia tornaram-se fundamentais para o sucesso da IA, gerando alternativas para gerenciar despesas de hardware. O Google oferece unidades de processamento tensor, ou TPUs, não como chips independentes, mas como recursos de computação baseados em nuvem. A Amazon fornece chips aceleradores Trainium AI, com o Trainium 3 de terceira geração lançado em dezembro. Essas opções permitem que as empresas retirem algumas cargas de trabalho do hardware Nvidia, reduzindo custos gerais. A Microsoft afirma que o Maia 200 supera os concorrentes nas principais métricas. Ele atinge três vezes o desempenho do FP4 dos chips Trainium de terceira geração da Amazon. Seu desempenho no FP8 supera o das TPUs de sétima geração do Google, conforme detalhado no comunicado de imprensa da empresa na segunda-feira. O chip já suporta esforços internos de IA. Ele alimenta modelos desenvolvidos pela equipe de Superinteligência da Microsoft. As operações do chatbot Copilot também contam com o hardware Maia 200. A partir de segunda-feira, a Microsoft estendeu convites a usuários externos. Desenvolvedores, acadêmicos e laboratórios de IA de ponta agora podem acessar o kit de desenvolvimento de software Maia 200 para integração em suas cargas de trabalho.





