Dataconomy PT
Subscribe
No Result
View All Result
Dataconomy PT
Subscribe
No Result
View All Result
Dataconomy PT
No Result
View All Result

O modelo nGPT da NVIDIA reduz o tempo de treinamento de IA em 20x

byKerem Gülen
21 Outubro 2024
in Artificial Intelligence
Home Artificial Intelligence
Share on FacebookShare on Twitter

A NVIDIA revelou um grande avanço no treinamento de modelos de IA com o lançamento do Transformador Normalizado (nGPT). Esta nova arquitetura, projetada para aprimorar o processo de treinamento para grandes modelos de linguagem (LLMs), tem o potencial de acelerar o tempo de treinamento de 4 a 20 vezes, ao mesmo tempo em que mantém a estabilidade e a precisão do modelo. O modelo nGPT agiliza o processo de treinamento, utilizando menos recursos e oferecendo uma solução mais eficiente para o desenvolvimento de IA.

O que torna o nGPT diferente: aprendizagem hiperesférica

No centro da eficiência do nGPT está um conceito chamado aprendizagem de representação hiperesférica. Nos modelos tradicionais de transformadores, os dados são frequentemente processados ​​sem uma estrutura geométrica consistente. O nGPT da NVIDIA muda isso mapeando todos os componentes principais – como incorporações, matrizes de atenção e estados ocultos – na superfície de uma hiperesfera. Esta configuração geométrica ajuda a garantir que todas as camadas do modelo permaneçam equilibradas durante o treinamento, criando um processo de aprendizagem mais estável e eficiente.

Essa abordagem reduz significativamente o número de etapas de treinamento. Em vez de aplicar a redução de peso diretamente aos pesos do modelo, como nos modelos anteriores, o nGPT depende de parâmetros de escala aprendidosque otimizam como o modelo se ajusta durante o treinamento. É importante ressaltar que este método elimina a necessidade de outras técnicas de normalização, como CamadaNorm ou Norma RMStornando o processo mais simples e rápido.

O modelo nGPT da NVIDIA reduz o tempo de treinamento de IA em 20x
O modelo nGPT da NVIDIA reduz o tempo de treinamento de IA em 20x (Crédito da imagem)

Treinamento mais rápido com menos recursos

Os resultados da arquitetura do nGPT são claros. Em testes realizados usando o conjunto de dados OpenWebText, o nGPT da NVIDIA superou consistentemente os modelos GPT tradicionais em termos de velocidade e eficiência. Com entradas de texto de até 4.000 tokens, o nGPT exigiu muito menos rodadas de treinamento para obter perdas de validação semelhantes, reduzindo drasticamente o tempo necessário para treinar esses modelos complexos.

Além disso, a estrutura hiperesférica do nGPT proporciona melhor incorporação de separabilidade. Isso significa que o modelo pode distinguir mais facilmente entre diferentes entradas, levando a uma maior precisão durante os testes padrão de IA. A generalização aprimorada do modelo também permite um melhor desempenho em tarefas além do treinamento inicial, acelerando a convergência e mantendo altos níveis de precisão.

O modelo nGPT da NVIDIA reduz o tempo de treinamento de IA em 20x
O modelo nGPT da NVIDIA reduz o tempo de treinamento de IA em 20x (Crédito da imagem)

Por que isso é importante para o treinamento em IA

Uma vantagem chave do nGPT é a sua capacidade de combinar ambos normalização e representação aprendizagem em uma estrutura unificada. Esse design simplifica a arquitetura do modelo, facilitando o dimensionamento e a adaptação para sistemas híbridos mais complexos. Isto poderia potencialmente levar ao desenvolvimento de sistemas de IA ainda mais poderosos no futuro, uma vez que a abordagem do nGPT poderia ser integrada noutros tipos de modelos e arquitecturas.


Crédito da imagem em destaque: Kerem Gülen/Ideograma

Tags: ApresentouIANGPNvidia

Related Posts

Antrópico revisa testes de contratação por conta de Claude AI

Antrópico revisa testes de contratação por conta de Claude AI

22 Janeiro 2026
Anthropic revisa a Constituição de Claude com novos princípios de ética de segurança

Anthropic revisa a Constituição de Claude com novos princípios de ética de segurança

22 Janeiro 2026
YouTube lançará ferramentas de gerenciamento de semelhanças de IA para criadores

YouTube lançará ferramentas de gerenciamento de semelhanças de IA para criadores

22 Janeiro 2026
Amazon integra assistente Health AI em aplicativo móvel One Medical

Amazon integra assistente Health AI em aplicativo móvel One Medical

22 Janeiro 2026
Apple renovará Siri como chatbot de IA em nível de sistema no iOS 27

Apple renovará Siri como chatbot de IA em nível de sistema no iOS 27

22 Janeiro 2026
OpenAI força filtros de segurança em adolescentes por meio de previsão comportamental de idade

OpenAI força filtros de segurança em adolescentes por meio de previsão comportamental de idade

21 Janeiro 2026

Recent Posts

  • O Google Fotos redesenha o compartilhamento com carrossel imersivo em tela cheia
  • NexPhone lança telefone com sistema operacional triplo por US$ 549
  • Antrópico revisa testes de contratação por conta de Claude AI
  • Blue Origin marca lançamento no final de fevereiro para a terceira missão New Glenn
  • Anthropic revisa a Constituição de Claude com novos princípios de ética de segurança

Recent Comments

Nenhum comentário para mostrar.
Dataconomy PT

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.