Dataconomy PT
Subscribe
No Result
View All Result
Dataconomy PT
Subscribe
No Result
View All Result
Dataconomy PT
No Result
View All Result

Modelos padrão de IA falham em matemática simples sem treinamento especializado

byKerem Gülen
30 Dezembro 2025
in Research
Home Research
Share on FacebookShare on Twitter

Grandes modelos de linguagem têm lutado com a multiplicação de vários dígitos sem métodos de treinamento especializados, apesar de sua capacidade de lidar com tarefas complexas de codificação e raciocínio, de acordo com um estudo recente. Pesquisa publicada no arXiv O servidor de pré-impressão de Xiaoyan Bai e Chenhao Tan da Universidade de Chicago, juntamente com colaboradores do MIT, da Universidade de Harvard, da Universidade de Waterloo e do Google DeepMind, identificaram as razões para esta limitação e encontraram soluções. Os modelos padrão de linguagem grande alcançaram menos de 1% de precisão ao multiplicar dois números de quatro dígitos, mesmo com camadas aumentadas até 12. Esses modelos convergiram para um “ótimo local”, falhando em armazenar e recuperar cálculos intermediários necessários para a multiplicação de vários dígitos, que são categorizados como dependências de longo alcance. Por outro lado, um modelo treinado com o método Implicit Chain of Thought (ICoT) alcançou 100% de precisão. O modelo ICoT demonstrou capacidade de rastrear dependências de longo alcance e internalizar processos de raciocínio, removendo gradualmente etapas intermediárias de raciocínio durante o treinamento. A equipe de pesquisa decodificou valores intermediários, como somas acumuladas, dos estados internos do modelo ICoT, o que não foi possível com o modelo padrão de ajuste fino. O modelo ICoT organizou sua atenção em caminhos distintos, computando produtos de pares de dígitos em camadas iniciais e armazenando-os em locais específicos para recuperação em camadas posteriores. Isso criou uma estrutura interna eficiente para multiplicação. O estudo também descobriu que o modelo ICoT representava operações usando estruturas elegantes, codificando dígitos como padrões ondulatórios (bases de Fourier) e organizando a aritmética espacialmente. Durante a multiplicação de pares de dígitos, o modelo utilizou naturalmente uma operação geométrica chamada soma de Minkowski, que não foi explicitamente programada pelos pesquisadores. Os pesquisadores alcançaram 99% de precisão em um modelo de duas camadas, introduzindo um objetivo de treinamento modificado que ensinou o modelo a rastrear somas acumuladas em cada etapa, transportando assim valores intermediários e produtos parciais para frente. Esta adição permitiu ao modelo desenvolver mecanismos semelhantes aos do ICoT, incluindo armazenamento e recuperação de produtos parciais e rastreamento de pares de múltiplos dígitos simultaneamente. Chenhao Tan disse: “Nossa pesquisa está tentando mapear esse terreno”. O estudo destaca que os insights arquitetônicos e as técnicas de treinamento podem superar obstáculos que o dimensionamento por si só não consegue resolver, enfatizando a importância da orientação integrada no avanço das capacidades de IA. As descobertas iluminam aspectos fundamentais de como grandes modelos de linguagem aprendem e “pensam”, com o problema da dependência de longo alcance estendendo-se além da aritmética para outras tarefas sequenciais na modelagem de linguagem.


Crédito da imagem em destaque

Tags: IAmatemática

Related Posts

IA corrompe pesquisas acadêmicas com citações de estudos inexistentes

IA corrompe pesquisas acadêmicas com citações de estudos inexistentes

30 Dezembro 2025
As baterias de íon de sódio estão mais próximas do carregamento rápido à medida que os pesquisadores resolvem gargalos de íons

As baterias de íon de sódio estão mais próximas do carregamento rápido à medida que os pesquisadores resolvem gargalos de íons

30 Dezembro 2025
IA corrompe pesquisas acadêmicas com citações de estudos inexistentes

IA corrompe pesquisas acadêmicas com citações de estudos inexistentes

30 Dezembro 2025
Cientistas descobrem mais de 17 mil novas espécies

Cientistas descobrem mais de 17 mil novas espécies

26 Dezembro 2025
GPT-5.2 ultrapassa a linha de base do doutorado especializado com pontuação científica de 92%

GPT-5.2 ultrapassa a linha de base do doutorado especializado com pontuação científica de 92%

24 Dezembro 2025
Por que DIG AI é a IA maliciosa mais perigosa de 2025

Por que DIG AI é a IA maliciosa mais perigosa de 2025

23 Dezembro 2025

Recent Posts

  • SoftBank adquire DigitalBridge por US$ 4 bilhões em dinheiro
  • CachyOS desafia Ubuntu em novos benchmarks de servidor
  • Stoxx 600 bate recorde: os mercados europeus atingem um recorde enquanto as mineradoras se recuperam
  • Analista prevê estabilidade do Bitcoin em relação ao crescimento para o primeiro trimestre de 2026
  • IA corrompe pesquisas acadêmicas com citações de estudos inexistentes

Recent Comments

Nenhum comentário para mostrar.
Dataconomy PT

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.