A ascensão de grandes modelos de linguagem (LLMS) não foi nada menos que transformador. Esses sistemas de IA se destacam no raciocínio complexo, dividindo problemas em etapas lógicas e estruturadas conhecidas como Raciocínio da cadeia de pensamento (COT). No entanto, à medida que a pesquisa de IA pressiona a eficiência, surge uma questão -chave: Os modelos menores podem herdar essas capacidades avançadas de raciocínio através da destilação de modelos maiores?
Um novo estudar Por Yuetai Li, Xiang Yue, Zhangchen Xu, Fengqing Jiang, Luyao Niu, Bill Yuchen Lin, Bhaskar Ramasubramanian e Radha Poovendran, da Universidade de Washington, Carnegie Mellon e a Universidade Oeste de Washington sugerem que a resposta é mais complicada. No estudo chamado “Modelos pequenos lutam para aprender com os motivos fortes”Os pesquisadores identificaram o que chamam de Pequeno modelo de aprendizagem lacuna– Um fenômeno em que pequenos modelos (≤3b parâmetros) lutam para se beneficiar do raciocínio intrincado de seus colegas maiores. Em vez disso, esses modelos têm melhor desempenho quando treinados em Etapas de raciocínio mais curtas e mais simples ou destilado de outro pequenos modelos.
Esta descoberta desafia a crença convencional de que maior é sempre melhor Quando se trata de transferência de conhecimento de IA. O estudo também propõe um nova abordagem para destilação de IA– Um que mistura a complexidade do raciocínio para ajudar modelos menores a aprender de maneira mais eficaz.
Por que pequenos modelos de IA lutam com raciocínio complexo
LLMS Gosto GPT-4O, Claude 3 Opus e Gêmeos são treinados em conjuntos de dados maciços e otimizados para processar cadeias de raciocínio complexas. Suas explicações passo a passo aumentam a precisão da solução de problemas em campos como matemática, inferência lógica e tomada de decisão estruturada.
Naturalmente, os pesquisadores de IA tentaram “encolher” Essa inteligência em modelos menores-ajustando-os usando saídas de modelos maiores. A ideia é direta: treine um modelo menor em traços de raciocínio longos e detalhados gerado por uma IA maior, esperando que ele absorva a mesma lógica estruturada.
Mas o estudo encontra essa abordagem Frequentemente sai pela culatra.
- Modelos pequenos não conseguem internalizar etapas de raciocínio longas: Quando treinado em Explicações longas e complexasmodelos menores lutam para generalizar, levando a quedas de desempenho.
- Eles aprendem melhor com cadeias de raciocínio mais simples: Treinando pequenos modelos em Sequências de raciocínio mais curtas e concisas melhora sua capacidade de processar etapas lógicas.
- Maior nem sempre é melhor para ensinar ai: As grandes cadeias de raciocínio geradas por modelos nem sempre melhoram o raciocínio dos modelos menores-às vezes eles o impedem.
Este efeito é particularmente evidente em tarefas relacionadas à matemáticaonde a solução de problemas estruturados desempenha um papel crucial. A equipe de pesquisa avaliou pequenos modelos em vários benchmarks, incluindo Math, GSM8K, Aime, AMC e Olympiadbenchencontrar que a destilação complexa de raciocínio geralmente levou a um desempenho diminuído.
A correção: Misture Destilação
Para abordar isso Aprendendo gargaloos pesquisadores propõem um Misture a destilação abordagem. Em vez de treinar exclusivamente modelos pequenos em sequências de berços longos ou destilar de grandes modelos, este método equilibra a complexidade do raciocínio Combinando vários estilos de raciocínio.
Sua estratégia consiste em duas configurações:
- Mix-longo: Uma combinação de Correntes de raciocínio curtas e longasgarantindo que pequenos modelos sejam expostos à lógica detalhada e simplificada.
- Misturar-se: Uma mistura de passos de raciocínio de modelos grandes e pequenosotimizando a transferência de conhecimento sem sobrecarregar os modelos menores.
Experimentos mostram isso Mix A destilação melhora significativamente o raciocínio do modelo pequeno Comparado ao treinamento em dados de fonte única.
Por exemplo:
- QWEN2.5-3B-INSTRUTA melhorado por 8+ pontos em matemática e benchmarks AMC usando Mix-longocomparado ao treinamento apenas com dados longos de berço.
- O mesmo modelo ganhou 7+ pontos usando Misturar-secomparado à destilação direta de um grande modelo de professor.
O take -away? Modelos pequenos não precisam imitar modelos grandes literalmente – eles precisam de uma mistura cuidadosamente curada de complexidade de raciocínio.
Crédito da imagem em destaque: Kerem Gülen/Midjourney