Dataconomy PT
Subscribe
No Result
View All Result
Dataconomy PT
Subscribe
No Result
View All Result
Dataconomy PT
No Result
View All Result

Por que pequenos modelos de IA não conseguem acompanhar os grandes

byKerem Gülen
18 Fevereiro 2025
in Research
Home Research
Share on FacebookShare on Twitter

A ascensão de grandes modelos de linguagem (LLMS) não foi nada menos que transformador. Esses sistemas de IA se destacam no raciocínio complexo, dividindo problemas em etapas lógicas e estruturadas conhecidas como Raciocínio da cadeia de pensamento (COT). No entanto, à medida que a pesquisa de IA pressiona a eficiência, surge uma questão -chave: Os modelos menores podem herdar essas capacidades avançadas de raciocínio através da destilação de modelos maiores?

Um novo estudar Por Yuetai Li, Xiang Yue, Zhangchen Xu, Fengqing Jiang, Luyao Niu, Bill Yuchen Lin, Bhaskar Ramasubramanian e Radha Poovendran, da Universidade de Washington, Carnegie Mellon e a Universidade Oeste de Washington sugerem que a resposta é mais complicada. No estudo chamado “Modelos pequenos lutam para aprender com os motivos fortes”Os pesquisadores identificaram o que chamam de Pequeno modelo de aprendizagem lacuna– Um fenômeno em que pequenos modelos (≤3b parâmetros) lutam para se beneficiar do raciocínio intrincado de seus colegas maiores. Em vez disso, esses modelos têm melhor desempenho quando treinados em Etapas de raciocínio mais curtas e mais simples ou destilado de outro pequenos modelos.

Esta descoberta desafia a crença convencional de que maior é sempre melhor Quando se trata de transferência de conhecimento de IA. O estudo também propõe um nova abordagem para destilação de IA– Um que mistura a complexidade do raciocínio para ajudar modelos menores a aprender de maneira mais eficaz.

Por que pequenos modelos de IA lutam com raciocínio complexo

LLMS Gosto GPT-4O, Claude 3 Opus e Gêmeos são treinados em conjuntos de dados maciços e otimizados para processar cadeias de raciocínio complexas. Suas explicações passo a passo aumentam a precisão da solução de problemas em campos como matemática, inferência lógica e tomada de decisão estruturada.

Naturalmente, os pesquisadores de IA tentaram “encolher” Essa inteligência em modelos menores-ajustando-os usando saídas de modelos maiores. A ideia é direta: treine um modelo menor em traços de raciocínio longos e detalhados gerado por uma IA maior, esperando que ele absorva a mesma lógica estruturada.

Mas o estudo encontra essa abordagem Frequentemente sai pela culatra.

  • Modelos pequenos não conseguem internalizar etapas de raciocínio longas: Quando treinado em Explicações longas e complexasmodelos menores lutam para generalizar, levando a quedas de desempenho.
  • Eles aprendem melhor com cadeias de raciocínio mais simples: Treinando pequenos modelos em Sequências de raciocínio mais curtas e concisas melhora sua capacidade de processar etapas lógicas.
  • Maior nem sempre é melhor para ensinar ai: As grandes cadeias de raciocínio geradas por modelos nem sempre melhoram o raciocínio dos modelos menores-às vezes eles o impedem.

Este efeito é particularmente evidente em tarefas relacionadas à matemáticaonde a solução de problemas estruturados desempenha um papel crucial. A equipe de pesquisa avaliou pequenos modelos em vários benchmarks, incluindo Math, GSM8K, Aime, AMC e Olympiadbenchencontrar que a destilação complexa de raciocínio geralmente levou a um desempenho diminuído.

A correção: Misture Destilação

Para abordar isso Aprendendo gargaloos pesquisadores propõem um Misture a destilação abordagem. Em vez de treinar exclusivamente modelos pequenos em sequências de berços longos ou destilar de grandes modelos, este método equilibra a complexidade do raciocínio Combinando vários estilos de raciocínio.

Sua estratégia consiste em duas configurações:

  1. Mix-longo: Uma combinação de Correntes de raciocínio curtas e longasgarantindo que pequenos modelos sejam expostos à lógica detalhada e simplificada.
  2. Misturar-se: Uma mistura de passos de raciocínio de modelos grandes e pequenosotimizando a transferência de conhecimento sem sobrecarregar os modelos menores.

Experimentos mostram isso Mix A destilação melhora significativamente o raciocínio do modelo pequeno Comparado ao treinamento em dados de fonte única.

Por exemplo:

  • QWEN2.5-3B-INSTRUTA melhorado por 8+ pontos em matemática e benchmarks AMC usando Mix-longocomparado ao treinamento apenas com dados longos de berço.
  • O mesmo modelo ganhou 7+ pontos usando Misturar-secomparado à destilação direta de um grande modelo de professor.

O take -away? Modelos pequenos não precisam imitar modelos grandes literalmente – eles precisam de uma mistura cuidadosamente curada de complexidade de raciocínio.


Crédito da imagem em destaque: Kerem Gülen/Midjourney

Tags: Ai

Related Posts

As ferramentas de pesquisa de IA podem estar criando mais problemas do que resolvem

As ferramentas de pesquisa de IA podem estar criando mais problemas do que resolvem

14 Maio 2025
O seu parceiro de IA generativo super útil está tornando seu trabalho entediante?

O seu parceiro de IA generativo super útil está tornando seu trabalho entediante?

14 Maio 2025
Adele da Microsoft quer dar um perfil cognitivo à sua IA

Adele da Microsoft quer dar um perfil cognitivo à sua IA

14 Maio 2025
O artigo de pesquisa da Apple revela Matrix3D para geração de conteúdo 3D

O artigo de pesquisa da Apple revela Matrix3D para geração de conteúdo 3D

14 Maio 2025
Pesquisa: o padrão -ouro para avaliação de Genai

Pesquisa: o padrão -ouro para avaliação de Genai

12 Maio 2025
Ai finalmente resolve o quebra -cabeça mais difícil da biologia

Ai finalmente resolve o quebra -cabeça mais difícil da biologia

6 Maio 2025

Recent Posts

  • O impacto dos tecidos inteligentes no desempenho das roupas táticas
  • Databricks Aposta grande no servidor sem servidor com sua aquisição de neon de US $ 1 bilhão
  • AlphaEvolve: Como a nova IA do Google visa a verdade com a autocorreção
  • Tiktok está implementando textos alt gerados pela IA para melhor acessibilidade
  • Trump força a Apple a repensar sua estratégia de iPhone da Índia

Recent Comments

Nenhum comentário para mostrar.
Dataconomy PT

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.