A NVIDIA revelou um grande avanço no treinamento de modelos de IA com o lançamento do Transformador Normalizado (nGPT). Esta nova arquitetura, projetada para aprimorar o processo de treinamento para grandes modelos de linguagem (LLMs), tem o potencial de acelerar o tempo de treinamento de 4 a 20 vezes, ao mesmo tempo em que mantém a estabilidade e a precisão do modelo. O modelo nGPT agiliza o processo de treinamento, utilizando menos recursos e oferecendo uma solução mais eficiente para o desenvolvimento de IA.
O que torna o nGPT diferente: aprendizagem hiperesférica
No centro da eficiência do nGPT está um conceito chamado aprendizagem de representação hiperesférica. Nos modelos tradicionais de transformadores, os dados são frequentemente processados sem uma estrutura geométrica consistente. O nGPT da NVIDIA muda isso mapeando todos os componentes principais – como incorporações, matrizes de atenção e estados ocultos – na superfície de uma hiperesfera. Esta configuração geométrica ajuda a garantir que todas as camadas do modelo permaneçam equilibradas durante o treinamento, criando um processo de aprendizagem mais estável e eficiente.
Essa abordagem reduz significativamente o número de etapas de treinamento. Em vez de aplicar a redução de peso diretamente aos pesos do modelo, como nos modelos anteriores, o nGPT depende de parâmetros de escala aprendidosque otimizam como o modelo se ajusta durante o treinamento. É importante ressaltar que este método elimina a necessidade de outras técnicas de normalização, como CamadaNorm ou Norma RMStornando o processo mais simples e rápido.

Treinamento mais rápido com menos recursos
Os resultados da arquitetura do nGPT são claros. Em testes realizados usando o conjunto de dados OpenWebText, o nGPT da NVIDIA superou consistentemente os modelos GPT tradicionais em termos de velocidade e eficiência. Com entradas de texto de até 4.000 tokens, o nGPT exigiu muito menos rodadas de treinamento para obter perdas de validação semelhantes, reduzindo drasticamente o tempo necessário para treinar esses modelos complexos.
Além disso, a estrutura hiperesférica do nGPT proporciona melhor incorporação de separabilidade. Isso significa que o modelo pode distinguir mais facilmente entre diferentes entradas, levando a uma maior precisão durante os testes padrão de IA. A generalização aprimorada do modelo também permite um melhor desempenho em tarefas além do treinamento inicial, acelerando a convergência e mantendo altos níveis de precisão.

Por que isso é importante para o treinamento em IA
Uma vantagem chave do nGPT é a sua capacidade de combinar ambos normalização e representação aprendizagem em uma estrutura unificada. Esse design simplifica a arquitetura do modelo, facilitando o dimensionamento e a adaptação para sistemas híbridos mais complexos. Isto poderia potencialmente levar ao desenvolvimento de sistemas de IA ainda mais poderosos no futuro, uma vez que a abordagem do nGPT poderia ser integrada noutros tipos de modelos e arquitecturas.
Crédito da imagem em destaque: Kerem Gülen/Ideograma




