Grandes modelos de linguagem têm lutado com a multiplicação de vários dígitos sem métodos de treinamento especializados, apesar de sua capacidade de lidar com tarefas complexas de codificação e raciocínio, de acordo com um estudo recente. Pesquisa publicada no arXiv O servidor de pré-impressão de Xiaoyan Bai e Chenhao Tan da Universidade de Chicago, juntamente com colaboradores do MIT, da Universidade de Harvard, da Universidade de Waterloo e do Google DeepMind, identificaram as razões para esta limitação e encontraram soluções. Os modelos padrão de linguagem grande alcançaram menos de 1% de precisão ao multiplicar dois números de quatro dígitos, mesmo com camadas aumentadas até 12. Esses modelos convergiram para um “ótimo local”, falhando em armazenar e recuperar cálculos intermediários necessários para a multiplicação de vários dígitos, que são categorizados como dependências de longo alcance. Por outro lado, um modelo treinado com o método Implicit Chain of Thought (ICoT) alcançou 100% de precisão. O modelo ICoT demonstrou capacidade de rastrear dependências de longo alcance e internalizar processos de raciocínio, removendo gradualmente etapas intermediárias de raciocínio durante o treinamento. A equipe de pesquisa decodificou valores intermediários, como somas acumuladas, dos estados internos do modelo ICoT, o que não foi possível com o modelo padrão de ajuste fino. O modelo ICoT organizou sua atenção em caminhos distintos, computando produtos de pares de dígitos em camadas iniciais e armazenando-os em locais específicos para recuperação em camadas posteriores. Isso criou uma estrutura interna eficiente para multiplicação. O estudo também descobriu que o modelo ICoT representava operações usando estruturas elegantes, codificando dígitos como padrões ondulatórios (bases de Fourier) e organizando a aritmética espacialmente. Durante a multiplicação de pares de dígitos, o modelo utilizou naturalmente uma operação geométrica chamada soma de Minkowski, que não foi explicitamente programada pelos pesquisadores. Os pesquisadores alcançaram 99% de precisão em um modelo de duas camadas, introduzindo um objetivo de treinamento modificado que ensinou o modelo a rastrear somas acumuladas em cada etapa, transportando assim valores intermediários e produtos parciais para frente. Esta adição permitiu ao modelo desenvolver mecanismos semelhantes aos do ICoT, incluindo armazenamento e recuperação de produtos parciais e rastreamento de pares de múltiplos dígitos simultaneamente. Chenhao Tan disse: “Nossa pesquisa está tentando mapear esse terreno”. O estudo destaca que os insights arquitetônicos e as técnicas de treinamento podem superar obstáculos que o dimensionamento por si só não consegue resolver, enfatizando a importância da orientação integrada no avanço das capacidades de IA. As descobertas iluminam aspectos fundamentais de como grandes modelos de linguagem aprendem e “pensam”, com o problema da dependência de longo alcance estendendo-se além da aritmética para outras tarefas sequenciais na modelagem de linguagem.




