Dataconomy PT
Subscribe
No Result
View All Result
Dataconomy PT
Subscribe
No Result
View All Result
Dataconomy PT
No Result
View All Result

Instella está aqui: o modelo de parâmetros 3B da AMD leva a Llama e Gemma

byKerem Gülen
7 Março 2025
in Artificial Intelligence, News
Home Artificial Intelligence
Share on FacebookShare on Twitter

AMD tem revelado Instella, uma família de modelos de idiomas totalmente abertos com 3 bilhões de parâmetros, treinados do zero no AMD Instinct ™ MI300X GPUS. Os modelos Instella superem modelos abertos existentes de tamanhos semelhantes e competem efetivamente com os principais modelos de peso aberto, incluindo LLAMA-3.2-3B, GEMMA-2-2B e QWEN-2.5-3B, incluindo suas versões ajustadas por instruções.

A AMD revela a Instella: modelos de idiomas de código aberto superando os rivais

A Instella emprega uma arquitetura de transformadores autoregressivos que consiste em 36 camadas de decodificadores e 32 cabeças de atenção, permitindo que processe sequências longas de até 4.096 tokens. O modelo utiliza um vocabulário de aproximadamente 50.000 tokens, gerenciados pelo tokenizador OLMO, tornando -o adepto em gerar e interpretar texto em vários domínios.

O procedimento de treinamento para a Instella destaca a colaboração entre as inovações de hardware e software da AMD. Esse novo modelo se baseia nas bases estabelecidas pelos modelos anteriores de 1 bilhão de parâmetros da AMD, transitando o treinamento em GPUs MI250 de 64 AMD MI250 com 1,3 trilhão de tokens para usar o GPUS MI300X de 128 instintos com 4,15 trilhões de tokens para o modelo atual de 3 biluários de 3 bilões.

Instella-IS-Here-AMD-3B-Parâmetro-Modelo-Takes-on-Llama e Gemma
Imagem: AMD

Ao comparar a Instella com modelos anteriores, a AMD relata que não apenas supera os modelos totalmente abertos existentes, mas também atinge o desempenho competitivo contra os modelos de peso aberto de ponta, marcando um marco significativo no campo de processamento de linguagem natural. Essa iniciativa se alinha ao compromisso da AMD em tornar a tecnologia avançada mais acessível e promover a colaboração e a inovação na comunidade de IA.


Preços da AMD RX 9000 podem fazer você repensar que a compra RTX 5090


Fases do modelo Instella e dados de treinamento

Este lançamento inclui várias versões dos modelos Instella, cada um representando diferentes estágios de treinamento:

Modelo Estágio Dados de treinamento (tokens) Descrição
Instella-3b-STAGE1 Pré-treinamento (estágio 1) 4,065 trilhões Primeiro estágio pré-treinamento para desenvolver proficiência em linguagem natural.
Instella-3b Pré-treinamento (estágio 2) 57,575 bilhões Segunda estágio pré-treinamento para aprimorar os recursos de solução de problemas.
Instella-3b-SFT Sft 8,902 bilhões (X3 épocas) Ajuste fino supervisionado (SFT) para permitir os recursos de seguidores de instruções.
Instella-3b-Instruct DPO 760 milhões Alinhamento às preferências humanas e aprimoramento dos recursos de bate -papo com otimização de preferência direta (DPO).

No pipeline de treinamento em várias etapas, o primeiro estágio de pré-treinamento usou 4,065 trilhões de tokens de diversos conjuntos de dados, estabelecendo a compreensão da linguagem fundamental. O treinamento subsequente em 57.575 bilhões de tokens adicionais aumentou ainda mais o desempenho do modelo em tarefas e domínios variados.

Durante o ajuste fino supervisionado, a Instella-3b-SFT foi treinada com 8,9 bilhões de tokens, melhorando os recursos de resposta interativa. A fase final, Instella-3B-Instruct, foi submetida a treinamento de alinhamento com otimização direta de preferência usando 0,76 bilhões de tokens, garantindo que as saídas do modelo estejam alinhadas com valores e preferências humanas.

A AMD fez todos os artefatos associados aos modelos Instella totalmente abertos, incluindo pesos do modelo, configurações de treinamento, conjuntos de dados e código, promovendo colaboração e inovação na comunidade de IA. Esses recursos podem ser acessados ​​via Abraçando o rosto cartões de modelo e Github Repositórios.


Crédito da imagem em destaque: AMD

Tags: AiAMDInstella

Related Posts

O Chrome implanta IA local para detectar novos golpes na web emergentes

O Chrome implanta IA local para detectar novos golpes na web emergentes

9 Maio 2025
A Apple desenvolve novos chips para óculos e macs inteligentes da AI

A Apple desenvolve novos chips para óculos e macs inteligentes da AI

9 Maio 2025
O cache implícito visa reduzir os custos da API de Gemini em 75%

O cache implícito visa reduzir os custos da API de Gemini em 75%

9 Maio 2025
O ChatGPT agora pode analisar seus repositórios do GitHub

O ChatGPT agora pode analisar seus repositórios do GitHub

9 Maio 2025
Meta threads acabou de ficar um pouco x-ier

Meta threads acabou de ficar um pouco x-ier

9 Maio 2025
Este robô da Amazon tem uma sensação de sensação

Este robô da Amazon tem uma sensação de sensação

9 Maio 2025

Recent Posts

  • Brad Smith testemunha a Microsoft bloqueou o aplicativo Deepseek para funcionários
  • O Chrome implanta IA local para detectar novos golpes na web emergentes
  • Aprendizado de máquina baseado em modelo (MBML)
  • ML Rastreamento de desempenho
  • Infraestrutura de aprendizado de máquina

Recent Comments

Nenhum comentário para mostrar.
Dataconomy PT

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.