A Meta anunciou o lançamento de produção do Llama 3.2, uma coleção sem precedentes de modelos de inteligência artificial gratuitos e de código aberto que visam moldar o futuro da inteligência de máquina com flexibilidade e eficiência.
Como as empresas estão à procura de soluções de IA apocalípticas que possam funcionar no hardware mais comum ou naqueles que são populares para desenvolver soluções para grandes empresas e também para empresas independentes, o Llama 3.2 oferece novos modelos.
O foco do Llama 3.2 em dispositivos móveis e de ponta
A ênfase na vanguarda e na mobilidade é algo bastante evidente na Meta.
Quanto aos novos recursos desta versão, os desenvolvedores adicionaram LLM de visão de pequeno e médio porte: 11B e 90B, e também introduziram alternativas de texto puro, 1B e 3B.
Particularmente, os novos modelos introduzidos aqui são alinhados para a operação de dispositivos de ponta, tornando assim a tecnologia de IA disponível para mais clientes. Os modelos leves somente de texto, especialmente aqueles sem nenhum dado visual, são projetados para tarefas mais simples, como resumo e acompanhamento de instruções devido ao baixo poder de computação.

Devido ao processamento central de dados em dispositivos móveis, com execução local, nenhum dado é carregado para a nuvem, como afirma o Meta,
“A execução local em dispositivos móveis garante que os dados permaneçam no dispositivo, aumentando a privacidade do usuário ao evitar o processamento baseado em nuvem”,
Esse recurso é especialmente útil para aplicativos que processam dados sensíveis, pois permite que o aplicativo execute tarefas importantes enquanto mantém a confidencialidade dos dados. Por exemplo, os usuários podem responder a mensagens pessoais enquanto as resumem, ou obter itens da lista de tarefas de reuniões sem retransmitir mensagens para servidores externos.
Avanços na arquitetura de modelos
A mudança mais significativa no Llama 3.2 são várias melhorias arquitetônicas. Os novos modelos usam uma arquitetura baseada em adaptador que pode combinar codificadores de imagem com modelos de texto pré-treinados sem modificação. Essa integração leva a melhorias na capacidade de raciocinar em áreas de texto e imagem e expande muito a gama de aplicações para esses modelos.
Os modelos pré-treinados resultantes passaram por rigorosos exercícios de ajuste fino que envolveram a utilização de enormes dados de pares de imagem e texto com ruído.
O Llama 3.2 11B e 90B inclui suporte para uma variedade de tarefas de visão multimodal. Esses recursos permitem cenários como legendas de imagens para acessibilidade, fornecendo insights de linguagem natural com base em visualizações de dados e muito mais. foto.twitter.com/8kwTopytaf
— IA na Meta (@AIatMeta) 25 de setembro de 2024
Há uma adição importante ao comprimento do contexto do token, e ele aumentou para um valor muito impressionante 128 mil para os modelos leves 1B e 3B. Ele facilita a viagem de dados mais ampla, o que é particularmente valioso para documentos longos e pensamento elaborado.
Esta capacidade de acomodar tamanhos de entrada tão grandes coloca o Llama 3.2 em vantagem em relação aos concorrentes no mercado dinâmico de IA dominado por Modelos GPT da OpenAI.
E as métricas de desempenho?
Os modelos do Llama 3.2 demonstraram métricas de desempenho excepcionais, solidificando ainda mais sua vantagem competitiva no mercado. O modelo 1B obteve uma pontuação de 49,3 no benchmark MMLU, enquanto o modelo 3B obteve 63,4. No lado da visão, os modelos 11B e 90B demonstraram suas capacidades com pontuações de 50,7 e 60,3, respectivamente, em tarefas de raciocínio visual.
Ao avaliar o desempenho em avaliações humanas extensivas e benchmarks, os resultados sugerem que os modelos de visão Llama 3.2 são competitivos com os principais modelos fechados em reconhecimento de imagem + uma variedade de tarefas de compreensão visual. foto.twitter.com/QtOzExBcrd
— IA na Meta (@AIatMeta) 25 de setembro de 2024
Essas métricas indicam que os modelos Llama 3.2 não apenas atendem, mas muitas vezes excedem o desempenho de ofertas semelhantes de outras empresas, como Claude 3 Haicai e GPT4o-mini.
A integração da tecnologia UnslothAI também aumenta a eficiência desses modelos, permitindo velocidades de ajuste fino e inferência duas vezes mais rápidas, ao mesmo tempo em que reduz o uso de VRAM em 70%. Esse aprimoramento é crucial para desenvolvedores que buscam implementar soluções de IA em tempo real sem enfrentar limitações de hardware.
Colaboração e suporte do ecossistema
Um dos principais fatores que definem a prontidão do Llama 3.2 para ser trazido ao mercado é seu ecossistema bem desenvolvido. Parcerias com outros líderes da indústria móvel como Qualcomm, MediaTek e AWS tornam possível para os desenvolvedores implementar esses modelos em diferentes configurações, ambientes de nuvem e dispositivos locais.
O Pilha de lhama Distribuições como Llama Stack para instalações no dispositivo e Llama Stack para instalação de nó único oferecem soluções que os desenvolvedores podem aproveitar e incorporar esses modelos em seus projetos sem complicações adicionais.
Os modelos leves Llama 3.2 enviados hoje incluem suporte para @Braço, @MediaTek & @Qualcomm para permitir que a comunidade de desenvolvedores comece a criar aplicativos móveis impactantes desde o primeiro dia. foto.twitter.com/DhhNcUviW7
— IA na Meta (@AIatMeta) 25 de setembro de 2024
Como usar o Meta Llama 3.2?
A versão mais recente do modelo de IA de código aberto, Llama 3.2, já está disponível no Site Meta Llamaoferecendo recursos aprimorados para personalização, ajuste fino e implantação em diversas plataformas.
Os desenvolvedores podem escolher entre quatro tamanhos de modelo: 1B, 3B, 11B e 90B, ou continuar utilizando os anteriores Lhama 3.1.
A Meta não está apenas liberando esses modelos para o mundo real; eles estão interessados em garantir que os desenvolvedores tenham tudo o que precisam para aproveitar o Llama 3.2 de forma eficaz. Esse compromisso inclui compartilhar ferramentas e recursos valiosos para ajudar os desenvolvedores a construir de forma responsável. Ao atualizar continuamente suas melhores práticas e se envolver com a comunidade de código aberto, a Meta espera inspirar a inovação ao mesmo tempo em que promove IA ética uso.
“Estamos animados para continuar as conversas que estamos tendo com nossos parceiros e a comunidade de código aberto e, como sempre, mal podemos esperar para ver o que a comunidade construirá usando o Llama 3.2 e o Llama Stack”,
Meta afirmou.
Essa abordagem colaborativa não apenas aprimora as capacidades do Llama 3.2, mas também incentiva um ecossistema vibrante. Seja para soluções de ponta leves ou tarefas multimodais mais complexas, a Meta espera que os novos modelos forneçam a flexibilidade necessária para atender às diversas demandas dos usuários.
Créditos da imagem: Meta