Durante anos, a promessa de uma IA conversacional verdadeiramente inteligente pareceu fora de alcance. Ficamos maravilhados com as habilidades do ChatGPT, Gêmeose outros grandes modelos de linguagem (LLMs) – compor poemas, escrever códigos, traduzir idiomas – mas essas façanhas sempre dependeram do vasto poder de processamento das GPUs em nuvem. Agora, uma revolução silenciosa está sendo preparada, com o objetivo de trazer esses recursos incríveis diretamente para o dispositivo que está no seu bolso: um LLM no seu smartphone.
Essa mudança não envolve apenas conveniência; trata-se de privacidade, eficiência e de desbloquear um novo mundo de experiências de IA personalizadas.
No entanto, reduzir esses enormes LLMs para caber em um dispositivo com memória e bateria limitadas apresenta um conjunto único de desafios. Para compreender esta paisagem complexa, conversei com Aleksei Naumovengenheiro-chefe de pesquisa de IA da Terra Quânticauma figura importante no campo da compressão LLM.
Na verdade, Naumov publicou recentemente um artigo sobre este assunto que está sendo anunciado como uma inovação extraordinária e significativa na compressão de redes neurais – ‘TQCompressor: Melhorando métodos de decomposição de tensores em redes neurais por meio de permutações‘ – na Conferência Internacional IEEE sobre Processamento e Recuperação de Informações Multimídia (IEEE MIPR 2024), uma conferência onde pesquisadores, cientistas e profissionais da indústria se reúnem para apresentar e discutir os mais recentes avanços em tecnologia multimídia.
“O principal desafio é, obviamente, a memória principal limitada (DRAM) disponível nos smartphones”, disse Naumov. “A maioria dos modelos não cabe na memória de um smartphone, impossibilitando sua execução.”
Ele aponta o modelo Llama 3.2-8B da Meta como um excelente exemplo.
“Requer aproximadamente 15 GB de memória”, disse Naumov. “No entanto, o iPhone 16 tem apenas 8 GB de DRAM, e o Google Pixel 9 Pro oferece 16 GB. Além disso, para operar esses modelos com eficiência, é necessário ainda mais memória – cerca de 24 GB, que é oferecida por dispositivos como a GPU NVIDIA RTX 4090, a partir de US$ 1.800.”
Essa restrição de memória não diz respeito apenas ao armazenamento; afeta diretamente a vida útil da bateria do telefone.
“Quanto mais memória um modelo requer, mais rápido ele esgota a bateria”, disse Naumov. “Um LLM de 8 bilhões de parâmetros consome cerca de 0,8 joules por token. Um iPhone totalmente carregado, com aproximadamente 50 kJ de energia, só poderia sustentar este modelo por cerca de duas horas a uma taxa de 10 tokens por segundo, com cada 64 tokens consumindo cerca de 0,2% da bateria.”
Então, como podemos superar esses obstáculos? Naumov destaca a importância das técnicas de compressão de modelos.
“Para resolver isso, precisamos reduzir o tamanho dos modelos”, disse Naumov. “Existem duas abordagens principais: reduzir o número de parâmetros ou diminuir a memória que cada parâmetro requer.”
Ele descreve estratégias como destilação, poda e decomposição de matriz para reduzir o número de parâmetros e quantização para diminuir o consumo de memória de cada parâmetro.
“Ao armazenar os parâmetros do modelo no INT8 em vez do FP16, podemos reduzir o consumo de memória em cerca de 50%”, disse Naumov.
Embora os dispositivos Pixel do Google, com suas TPUs otimizadas para TensorFlow, pareçam uma plataforma ideal para executar LLMs, Naumov adverte que eles não resolvem o problema fundamental das limitações de memória.
“Embora as unidades de processamento tensor (TPUs) usadas nos dispositivos Google Pixel ofereçam melhor desempenho ao executar modelos de IA, o que pode levar a velocidades de processamento mais rápidas ou menor consumo de bateria, elas não resolvem o problema fundamental dos simples requisitos de memória dos LLMs modernos , que normalmente excedem as capacidades de memória dos smartphones”, disse Naumov.
O esforço para trazer LLMs para smartphones vai além da mera ambição técnica. Trata-se de reimaginar a nossa relação com a IA e abordar as limitações das soluções baseadas na nuvem.
“Modelos líderes como o ChatGPT-4 têm mais de um trilhão de parâmetros”, disse Naumov. “Se imaginarmos um futuro onde as pessoas dependam fortemente de LLMs para tarefas como interfaces de conversação ou sistemas de recomendação, isso poderia significar que cerca de 5% do tempo diário dos usuários é gasto interagindo com esses modelos. Nesse cenário, a execução do GPT-4 exigiria a implantação de cerca de 100 milhões de GPUs H100. A escala computacional por si só, sem levar em conta as despesas gerais de comunicação e transmissão de dados, seria equivalente a operar cerca de 160 empresas do tamanho da Meta. Este nível de consumo de energia e emissões de carbono associadas representaria desafios ambientais significativos.”
A visão é clara: um futuro onde a IA esteja perfeitamente integrada na nossa vida quotidiana, fornecendo assistência personalizada sem comprometer a privacidade ou esgotar as baterias dos nossos telefones.
“Prevejo que muitos aplicativos LLM que atualmente dependem da computação em nuvem farão a transição para o processamento local nos dispositivos dos usuários”, disse Naumov. “Esta mudança será impulsionada por uma maior redução do modelo e melhorias nos recursos computacionais e na eficiência dos smartphones.”
Ele pinta um retrato de um futuro onde os recursos dos LLMs poderão se tornar tão comuns e intuitivos quanto a correção automática é hoje. Esta transição poderá revelar muitas possibilidades interessantes. Graças aos LLMs locais, imagine privacidade aprimorada onde seus dados confidenciais nunca saem do seu dispositivo.
Imagine IA onipresente com recursos LLM integrados em praticamente todos os aplicativos, desde mensagens e e-mail até ferramentas de produtividade. Pense na conveniência da funcionalidade offline, permitindo que você acesse a assistência de IA mesmo sem conexão com a internet. Visualize experiências personalizadas onde os LLMs aprendem suas preferências e hábitos para fornecer suporte verdadeiramente personalizado.
Para desenvolvedores ansiosos por explorar essa fronteira, Naumov oferece alguns conselhos práticos.
“Primeiro, recomendo selecionar um modelo que melhor se adapte à aplicação pretendida”, disse Naumov. “Hugging Face é um excelente recurso para isso. Procure modelos recentes com 1 a 3 bilhões de parâmetros, pois estes são os únicos atualmente viáveis para smartphones. Além disso, tente encontrar versões quantizadas desses modelos no Hugging Face. A comunidade de IA normalmente publica versões quantizadas de modelos populares lá.”
Ele também sugere explorar ferramentas como lhama.cpp e bits e bytes para quantização e inferência de modelos.
A jornada para trazer LLMs para smartphones ainda está em seus estágios iniciais, mas o potencial é inegável. À medida que investigadores como Aleksei Naumov continuam a ultrapassar os limites do que é possível, estamos à beira de uma nova era na IA móvel, em que os nossos smartphones se tornam companheiros verdadeiramente inteligentes, capazes de compreender e responder às nossas necessidades da forma que já conhecemos. apenas comecei a imaginar.