Ao trazer a atualização Meta AI para todas as plataformas, a Meta também publicou o benchmark Llama 3 para entusiastas de tecnologia.
O benchmark oferece a pesquisadores e desenvolvedores independentes um conjunto de testes padronizado para avaliar o desempenho do Llama 3 em diversas tarefas.
Essa transparência permite aos usuários comparar os pontos fortes e fracos do Llama 3 com outros LLMs usando o mesmo benchmark, promovendo uma compreensão mais objetiva de suas capacidades.
O que o benchmark Llama 3 mostra?
A Meta AI estabeleceu o benchmark Llama 3, um conjunto abrangente de avaliações projetado para avaliar o desempenho do LLM em várias tarefas. Essas tarefas incluem resposta a perguntas, resumo, seguimento de instruções e aprendizado rápido. O benchmark serve como uma ferramenta crucial para avaliar os pontos fortes e fracos do Llama 3 em relação a outros LLMs.
Embora uma comparação direta entre o benchmark Llama 3 e aqueles usados pelos concorrentes seja desafiadora devido às diferentes metodologias de avaliação, Meta afirma que os modelos Llama 3 treinados em seu conjunto de dados alcançaram um desempenho excepcional em todas as tarefas avaliadas. Isso indica que Meta AI está no mesmo nível dos melhores na área de LLM.
Aqui está uma visão mais aprofundada de como os benchmarks do Llama 3 se comparam:
- Escala de parâmetros: A Meta se orgulha de que seus modelos Llama 3 de parâmetros 8B e 70B superam o Llama 2 e estabelecem um novo estado da arte para LLMs de escala semelhante.
- Avaliação humana: A Meta conduziu avaliações humanas em um conjunto de dados abrangente que abrange 12 casos de uso principais. Esta avaliação posiciona o modelo Llama 3 de seguimento de instruções 70B favoravelmente contra rivais de tamanho comparável em cenários do mundo real.
Estas são avaliações do próprio Meta, e benchmarks independentes podem ser necessários para uma comparação mais definitiva.

Pesos abertos vs código aberto
É crucial diferenciar entre “pesos abertos” e “código aberto”. Embora o Llama 3 ofereça modelos e pesos para download gratuito, ele não se enquadra na definição estrita de código aberto devido às limitações de acesso e dados de treinamento (ao contrário do software verdadeiramente de código aberto).
Lhama 3 vem em dois tamanhos: 8 bilhões (8B) e 70 bilhões (70 bilhões) parâmetros. Ambos são disponível para download gratuito no site da Meta após um simples processo de inscrição.
Um mergulho técnico profundo no Meta AI
Llama 3 oferece duas versões:
- Pré-treinado: Este é o modelo bruto focado na previsão do próximo token.
- Ajustado por instrução: Esta versão foi ajustada para seguir instruções específicas do usuário.
Ambas as versões possuem um limite de contexto de 8.192 tokens.

Detalhes do treinamento
- Hardware de treinamento: A Meta empregou dois clusters personalizados, cada um contendo impressionantes 24.000 GPUs, para treinar o Llama 3.
- Dados de treinamento: Mark Zuckerberg, CEO da Meta, revelou em uma entrevista em podcast que o modelo 70B foi treinado em um enorme conjunto de dados de cerca de 15 trilhões de tokens. Curiosamente, o modelo nunca atingiu um ponto de saturação (pico de desempenho) durante o treinamento, sugerindo que pode haver espaço para melhorias adicionais com conjuntos de dados ainda maiores.
- Planos futuros: Meta está atualmente treinando uma versão colossal de parâmetros 400B do Llama 3, potencialmente colocando-o na mesma liga de desempenho de rivais como Turbo GPT-4 e Gêmeos Ultra em benchmarks como MMLU, GPQA, HumanEval e MATH.
Os desafios no benchmark Llama 3
Precisamos reconhecer as limitações dos benchmarks atuais do LLM devido a fatores como contaminação de dados de treinamento e seleção seletiva de resultados pelos fornecedores.
Apesar dessas limitações, Meta forneceu alguns benchmarks mostrando o desempenho do Llama 3 em tarefas como MMLU (conhecimentos gerais), GSM-8K (matemática), HumanEval (codificação), GPQA (perguntas avançadas) e MATH (problemas com palavras).
Esses benchmarks posicionam o modelo 8B favoravelmente em relação a concorrentes de peso aberto como Gemma 7B do Google e Mistral 7B Instrua. O modelo 70B também se destaca contra nomes estabelecidos como Gêmeos Pro 1.5 e Soneto de Cláudio 3.

Acessibilidade do Lhama 3
A Meta planeja disponibilizar os modelos Llama 3 nas principais plataformas de nuvem como AWS, Databricks, Google Cloud e outras, garantindo ampla acessibilidade para desenvolvedores.
Llama 3 constitui a base do assistente virtual do Meta, que terá destaque destaque em funcionalidades de pesquisa no Facebook, Instagram, WhatsApp, Messengere um site dedicado semelhante à interface do ChatGPT (incluindo geração de imagens).
Adicionalmente, Meta fez parceria com o Google para integrar resultados de pesquisa em tempo real ao assistente, com base em seus parceria existente com o Bing da Microsoft.
Crédito da imagem em destaque: meta