Dataconomy PT
Subscribe
No Result
View All Result
Dataconomy PT
Subscribe
No Result
View All Result
Dataconomy PT
No Result
View All Result

Microsoft Phi-3 é o próximo pequeno titã da gigante da tecnologia

byEmre Çıtak
24 Abril 2024
in Sem categoria
Share on FacebookShare on Twitter

A corrida por modelos de inteligência artificial cada vez maiores tem sido uma marca registrada dos avanços recentes. No entanto, a Microsoft está agitando as coisas com o Phi-3 Mini, um modelo de IA que apresenta capacidades impressionantes apesar do seu tamanho compacto.

Tradicionalmente, o sucesso em grandes modelos de linguagem (LLMs) tem sido associado ao número de parâmetros – essencialmente os blocos de construção que informam a compreensão da linguagem pelo modelo.

Levando em consideração os custos de computação e a disponibilidade para todos, o Microsoft Phi-3 está aqui para mudar essa abordagem “tradicional”.

O Microsoft Phi-3 Mini cabe um gigante no seu bolso

GPT-3.5, atual líder na corrida LLM, possui impressionantes 175 bilhões de parâmetros. Este imenso número permite que o GPT-3.5 processe grandes quantidades de dados de texto, proporcionando uma compreensão ampla e diferenciada da linguagem. No entanto, esta complexidade também tem um custo. A execução de um modelo com uma contagem de parâmetros tão alta requer recursos computacionais significativos, o que o torna caro e consome muita energia.

O minimodelo da Microsoft, por outro lado, adota uma abordagem diferente. Ao utilizar um conjunto muito menor de parâmetros – apenas 3,8 bilhões – o Phi-3 Mini opera com um nível de eficiência que supera seus equivalentes maiores. Esta redução de tamanho traduz-se em diversas vantagens.

Tudo isso torna o Microsoft Phi-3:

  • Significativamente mais barato para operar
  • Uma potência potencial para aplicativos de IA no dispositivo

Regime de treinamento do Phi-3 Mini

Outro aspecto intrigante do Phi-3 Mini é o seu método de treinamento.

Ao contrário de seus equivalentes maiores, treinados em enormes conjuntos de dados de texto e código, a educação do Phi-3 Mini envolveu uma seleção mais cuidadosa. Os investigadores optaram por um currículo inspirado na forma como as crianças aprendem – utilizando livros infantis como base.

Esta abordagem parece ter produzido resultados positivos, com o Phi-3 Mini demonstrando desempenho rivalizando com o do GPT-3.5 em vários benchmarks.

Microsoft Phi-3 LLM
Com apenas 3,8 bilhões de parâmetros, o Phi-3 Mini supera modelos maiores em termos de custo-benefício e desempenho no dispositivo (Crédito da imagem)

Comparado para o sucesso

Os pesquisadores da Microsoft testaram seu novo modelo usando benchmarks estabelecidos para LLMs. O modelo obteve pontuações impressionantes em métricas como MMLU (uma medida da capacidade de um modelo de compreender relações complexas na linguagem) e MT-bench (um teste para capacidades de tradução automática).

Esses resultados sugerem que o Phi-3 Mini, apesar de seu tamanho, pode competir com os grandes nomes do jogo LLM.

Como consegue resultados tão impressionantes?

Os detalhes técnicos do Phi-3 Mini revelam uma abordagem fascinante para alcançar resultados impressionantes com um modelo notavelmente pequeno. Aqui está uma análise dos principais aspectos:

Arquitetura do decodificador do transformador

Phi-3 Mini utiliza uma arquitetura de decodificador de transformador, uma escolha de design predominante para modelos de linguagem eficazes. Essa arquitetura é excelente no processamento de dados sequenciais como texto, permitindo ao modelo compreender as relações entre as palavras em uma frase.

Comprimento do contexto

O Phi-3 Mini padrão opera com um comprimento de contexto de 4.000 tokens. Define o número máximo de tokens (palavras ou partes de palavras) que o modelo considera ao gerar o texto. Um comprimento de contexto mais longo permite uma compreensão mais profunda da conversa anterior, mas também requer mais poder de processamento.

Versão de contexto longo (Phi-3-Mini-128K)

Para tarefas que exigem um contexto mais amplo, está disponível uma variante chamada Phi-3-Mini-128K. Esta versão estende o comprimento do contexto para impressionantes 128.000 tokens, permitindo lidar com sequências de informações mais complexas.

Compatibilidade com ferramentas existentes

Para beneficiar a comunidade de desenvolvedores, o Phi-3 Mini compartilha uma estrutura e tamanho de vocabulário semelhantes (320.641) com a família de modelos Llama-2. Essa compatibilidade permite que os desenvolvedores aproveitem as ferramentas e bibliotecas existentes projetadas para o Llama-2 ao trabalhar com o Phi-3 Mini.

Parâmetros do modelo

É aqui que o Phi-3 Mini realmente brilha. Com apenas 3,072 bilhões de parâmetros, ele opera muito abaixo dos números surpreendentes vistos em modelos maiores como o GPT-3.5 (175 bilhões de parâmetros).

Esta redução significativa nos parâmetros traduz-se numa eficiência excepcional em termos de poder de processamento e utilização de memória.

Saif Naik da Microsoft explica:

“Nosso objetivo com o copiloto Krishi Mitra é melhorar a eficiência e, ao mesmo tempo, manter a precisão de um grande modelo de linguagem. Estamos entusiasmados com a parceria com a Microsoft no uso de versões aprimoradas do Phi-3 para atingir nossos objetivos: eficiência e precisão!”

– Saif Naik, Chefe de Tecnologia, ITCMAARS

Metodologia de treinamento

O treinamento do Phi-3 Mini se inspira na abordagem “Os livros didáticos são tudo que você precisa”. Este método enfatiza dados de treinamento de alta qualidade em vez de simplesmente aumentar o tamanho do modelo. Os dados de treinamento são cuidadosamente selecionados, com foco em fontes da web com um “nível educacional” específico e em dados sintéticos gerados por outros LLMs.

Esta estratégia permite que o Phi-3 Mini alcance resultados impressionantes apesar do seu tamanho compacto.

Filtragem de dados para aprendizagem ideal

Ao contrário das abordagens tradicionais que priorizam recursos computacionais ou treinamento excessivo, o Phi-3 Mini se concentra em um “regime ideal de dados” para seu tamanho. Isso envolve filtrar meticulosamente os dados da web para garantir que contenham o nível certo de “conhecimento” e promovam habilidades de raciocínio.

Por exemplo, dados desportivos gerais podem ser excluídos para dar prioridade a informações que melhorem a capacidade de raciocínio do modelo.

Ajuste fino pós-treinamento

Após o processo de treinamento básico, o novo modelo passa por refinamento adicional por meio de ajuste fino supervisionado (SFT) e otimização de preferência direta (DPO). SFT expõe o modelo a dados selecionados em vários domínios, incluindo matemática, codificação e princípios de segurança. O DPO ajuda a desviar o modelo de comportamentos indesejados, identificando e excluindo resultados indesejáveis.

Esta fase pós-treinamento transforma o Phi-3 Mini de um modelo de linguagem em um assistente de IA versátil e seguro.

Desempenho eficiente no dispositivo

O tamanho pequeno do Phi-3 Mini se traduz em desempenho excepcional no dispositivo. Ao quantizar o modelo em 4 bits, ele ocupa apenas 1,8 gigabytes de memória.

Um casamento feito no céu

Você se lembra das tentativas fracassadas da Microsoft com smartphones? A respeito Acordos fracassados ​​de integração do Google Gemini da Apple nos últimos meses? Ou você está acompanhando as notícias da Apple falando sobre a integração de um LLM no dispositivo com iOS 18 nas últimas semanas?

Isso toca uma campainha?

As aplicações potenciais do Phi-3 Mini são vastas. Sua eficiência o torna ideal para integração em dispositivos móveis, possibilitando recursos como assistentes virtuais mais inteligentes e tradução de idiomas em tempo real. Além disso, a sua relação custo-eficácia poderia abrir portas para uma adoção mais ampla por parte dos desenvolvedores que trabalham em vários projetos alimentados por IA.

E era exatamente isso que a Apple procurava. É claro que esta afirmação nada mais é do que um palpite por enquanto, mas não seria errado dizer que se trata de uma “combinação feita no céu”. Além disso, no artigo de pesquisa, o novo projeto da Microsoft já foi executado em um iPhone com chip A16 Bionic nativamente.

Microsoft Phi-3 LLM
Surgem especulações sobre a potencial colaboração entre a Microsoft e a Apple, considerando a compatibilidade do Phi-3 Mini com dispositivos iOS e o recente interesse da Apple na integração LLM no dispositivo (Crédito da imagem)

O sucesso do Phi-3 Mini depende de uma combinação de fatores – uma arquitetura adequada, uso eficiente do comprimento do contexto, compatibilidade com ferramentas existentes, foco em dados de treinamento de alta qualidade e técnicas de otimização. Esta abordagem única abre caminho para modelos de IA poderosos e eficientes que podem operar perfeitamente em dispositivos pessoais.


Crédito da imagem em destaque: vecstock/Freepik

Related Posts

Pronto para um chatgpt que realmente o conhece?

Pronto para um chatgpt que realmente o conhece?

14 Maio 2025
As ferramentas de pesquisa de IA podem estar criando mais problemas do que resolvem

As ferramentas de pesquisa de IA podem estar criando mais problemas do que resolvem

14 Maio 2025
O seu parceiro de IA generativo super útil está tornando seu trabalho entediante?

O seu parceiro de IA generativo super útil está tornando seu trabalho entediante?

14 Maio 2025
Adele da Microsoft quer dar um perfil cognitivo à sua IA

Adele da Microsoft quer dar um perfil cognitivo à sua IA

14 Maio 2025
O artigo de pesquisa da Apple revela Matrix3D para geração de conteúdo 3D

O artigo de pesquisa da Apple revela Matrix3D para geração de conteúdo 3D

14 Maio 2025
Lightricks revela o modelo de vídeo LTX 13B para geração de vídeo HQ AI

Lightricks revela o modelo de vídeo LTX 13B para geração de vídeo HQ AI

14 Maio 2025

Recent Posts

  • Pronto para um chatgpt que realmente o conhece?
  • As ferramentas de pesquisa de IA podem estar criando mais problemas do que resolvem
  • O seu parceiro de IA generativo super útil está tornando seu trabalho entediante?
  • Adele da Microsoft quer dar um perfil cognitivo à sua IA
  • O artigo de pesquisa da Apple revela Matrix3D para geração de conteúdo 3D

Recent Comments

Nenhum comentário para mostrar.
Dataconomy PT

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.