Maçã é posicionamento o novo MacBook Pro com motor M5 como uma máquina muito mais capaz para executar e experimentar modelos de linguagem grandes, graças a atualizações em sua estrutura MLX e nos aceleradores neurais de GPU integrados ao chip. Para pesquisadores e desenvolvedores que preferem cada vez mais trabalhar diretamente em hardware de silício da Apple, a empresa está lançando a linha M5 como um avanço significativo no desempenho de inferência no dispositivo, especialmente para LLMs e outras cargas de trabalho dominadas por operações matriciais. No centro desse esforço está o MLX, a estrutura de array de código aberto da Apple projetada especificamente para sua arquitetura de memória unificada. O MLX fornece uma interface semelhante ao NumPy para computação numérica, suporta treinamento e inferência para redes neurais e permite que os desenvolvedores se movam perfeitamente entre a execução de CPU e GPU sem transferir dados entre diferentes pools de memória. Funciona em todos os sistemas de silício da Apple, mas o macOS beta mais recente desbloqueia uma nova camada de aceleração ao explorar as unidades dedicadas de multiplicação de matrizes dentro da GPU do M5. Esses aceleradores neurais são expostos por meio do TensorOps no Metal 4 e dão ao MLX acesso ao desempenho que a Apple argumenta ser crucial para cargas de trabalho dominadas por grandes multiplicações de tensores. Além do MLX está o MLX LM, um pacote para geração de texto e ajuste fino que suporta a maioria dos modelos de linguagem hospedados no Hugging Face. Os usuários podem instalá-lo via pip, iniciar sessões de chat no terminal e quantizar modelos diretamente no dispositivo. A quantização é um recurso central: converter um modelo Mistral de 7B de parâmetros em 4 bits leva apenas alguns segundos, reduzindo drasticamente os requisitos de memória e preservando a usabilidade em máquinas de consumo.
Imagem: MaçãPara mostrar os ganhos do M5, a Apple comparou vários modelos – incluindo Qwen 1.7B e 8B (BF16), Qwen 8B e 14B quantizados de 4 bits e duas arquiteturas mistas de especialistas: Qwen 30B (3B ativo) e GPT-OSS 20B (MXFP4). Os resultados se concentram no tempo até o primeiro token (TTFT) e na velocidade de geração ao produzir 128 tokens adicionais a partir de um prompt de 4.096 tokens. Os aceleradores neurais do M5 melhoram significativamente o TTFT, reduzindo a espera em menos de 10 segundos para um modelo 14B denso e em menos de 3 segundos para um MoE 30B. A Apple relata acelerações de TTFT entre 3,3x e 4x em comparação com a geração M4 anterior. A geração subsequente de tokens – que é limitada pela largura de banda da memória e não pela computação – apresenta ganhos menores, mas consistentes, de aproximadamente 19–27%, alinhados com o aumento de 28% na largura de banda do M5 (153 GB/s versus 120 GB/s no M4). Os testes também destacam quanta capacidade do modelo cabe confortavelmente na memória unificada. Um MacBook Pro de 24 GB pode hospedar um modelo de 8B em BF16 ou um MoE de 30B de 4 bits com espaço de sobra, mantendo o uso total abaixo de 18GB em ambos os casos. A Apple diz que as mesmas vantagens do acelerador vão além dos modelos de linguagem. Por exemplo, gerar uma imagem 1024×1024 com FLUX-dev-4bit (parâmetros 12B) é 3,8x mais rápido em um M5 do que em um M4. À medida que a MLX continua a adicionar recursos e ampliar o suporte ao modelo, a empresa aposta que mais membros da comunidade de pesquisa de ML tratarão o silício da Apple não apenas como um ambiente de desenvolvimento, mas como uma plataforma viável de inferência e experimentação.




