A Microsoft está intensificando seu jogo no mundo da IA com a nova série Phi-3.5, oferecendo três modelos de ponta projetados para diferentes tarefas. Esses modelos não são apenas poderosos — eles também são versáteis, tornando mais fácil para os desenvolvedores lidar com tudo, desde codificação básica até resolução de problemas complexos e até mesmo tarefas visuais. Quer você esteja trabalhando com recursos limitados ou precise de recursos avançados inteligência artificial capacidades, os modelos Phi-3.5 têm algo a oferecer, e aqui está uma rápida olhada neles.
Analisando os modelos Phi-3.5 da Microsoft
O lançamento mais recente da Microsoft, a série Phi 3.5, apresenta três modelos avançados de IA: Phi-3.5-mini-instruct, Phi-3.5-MoE-instruct e Phi-3.5-vision-instruct. Cada modelo é criado para atender a necessidades específicas, do raciocínio básico a tarefas multimodais avançadas.
Todos os três modelos Microsoft Phi-3.5 estão disponíveis sob a licença MIT, que permite que os desenvolvedores usem, modifiquem e distribuam os modelos com restrições mínimas. Essa abordagem de código aberto suporta adoção generalizada e promove inovação em vários aplicativos e domínios de pesquisa.
Phi-3.5 Mini Instruct: Eficiente e compacto
O Microsoft Phi-3.5 Mini Instrutor O modelo foi projetado para ter um desempenho excepcionalmente bom em ambientes com recursos computacionais limitados. Com 3,8 bilhões de parâmetros, ele é adaptado para tarefas que exigem fortes capacidades de raciocínio, mas não exigem grande poder computacional. Treinado em 3,4 trilhões de tokens usando 512 GPUs H100-80G ao longo de 10 dias.
Principais características:
- Parâmetros: 3,8 bilhões
- Comprimento do contexto: 128 mil fichas
- Principais casos de uso: Geração de código, resolução de problemas matemáticos, raciocínio baseado em lógica
- Desempenho: Apesar de seu tamanho menor, ele demonstra desempenho competitivo em tarefas de conversação multilíngues e multi-turn. Ele se destaca em benchmarks como o RepoQA, que mede a compreensão de código de contexto longo, superando outros modelos de tamanho similar como o Llama-3.1-8B-instruct.
O design eficiente do Phi-3.5 Mini Instruct permite que ele ofereça desempenho robusto, ao mesmo tempo em que está atento às restrições de recursos. Isso o torna adequado para implantação em cenários onde os recursos computacionais são limitados, mas alto desempenho ainda é necessário.
Phi-3.5 MoE: Mistura de arquitetura de especialistas
O Microsoft Phi-3.5 MoE (Mistura de especialistas) O modelo representa uma abordagem sofisticada para a arquitetura de IA ao combinar vários modelos especializados em um. Ele apresenta um design exclusivo onde diferentes “especialistas” são ativados dependendo da tarefa, otimizando o desempenho em vários domínios. Treinado em 4,9 trilhões de tokens com 512 GPUs H100-80G ao longo de 23 dias.
Principais características:
- Parâmetros: 42 bilhões (ativos), com 6,6 bilhões usados ativamente durante a operação
- Comprimento do contexto: 128 mil fichas
- Principais casos de uso: Tarefas de raciocínio complexas, compreensão de código, compreensão de linguagem multilíngue
- Desempenho: O modelo MoE tem um desempenho excepcionalmente bom em tarefas de código e matemática e exibe forte compreensão multilíngue. Ele frequentemente supera modelos maiores em benchmarks específicos, incluindo uma vantagem notável sobre o GPT-4o mini no teste MMLU (Massive Multitask Language Understanding) de 5 tentativas.
A arquitetura Phi-3.5 MoE aprimora a escalabilidade e a eficiência ao ativar apenas um subconjunto de parâmetros relevantes para uma determinada tarefa. Isso permite que o modelo lide com uma ampla gama de aplicações, mantendo alto desempenho em diferentes idiomas e assuntos.
Phi-3.5 Vision Instruct: Capacidades multimodais avançadas
O Microsoft Phi-3.5 Vision Instrutor O modelo é projetado para manipular dados de texto e imagem, tornando-o uma ferramenta poderosa para tarefas de IA multimodais. Ele integra processamento avançado de imagem com compreensão textual, suportando uma variedade de tarefas complexas de análise visual e textual. Treinado em 500 bilhões de tokens usando 256 GPUs A100-80G ao longo de 6 dias.
Principais características:
- Parâmetros: 4,15 bilhões
- Comprimento do contexto: 128 mil fichas
- Principais casos de uso: Compreensão de imagens, reconhecimento óptico de caracteres (OCR), compreensão de gráficos e tabelas, resumo de vídeos
- Desempenho: Treinado em uma combinação de conjuntos de dados sintéticos e filtrados disponíveis publicamente, o modelo Vision Instruct se destaca no tratamento de tarefas visuais complexas de vários quadros e fornece uma análise abrangente de informações visuais e textuais.
A capacidade do Phi-3.5 Vision Instruct de processar e integrar texto e imagens o torna altamente versátil para aplicações que exigem análise visual detalhada. Essa capacidade é particularmente valiosa para tarefas que envolvem diversos tipos e formatos de dados.
O modelo Phi-3.5 Vision Instruct também pode ser acessado por meio de Estúdio de IA do Azure.