Dataconomy PT
Subscribe
No Result
View All Result
Dataconomy PT
Subscribe
No Result
View All Result
Dataconomy PT
No Result
View All Result

Modelos padrão de IA falham em matemática simples sem treinamento especializado

byKerem Gülen
30 Dezembro 2025
in Pesquisar
Home Pesquisar
Share on FacebookShare on Twitter
Google Preferred Source

Grandes modelos de linguagem têm lutado com a multiplicação de vários dígitos sem métodos de treinamento especializados, apesar de sua capacidade de lidar com tarefas complexas de codificação e raciocínio, de acordo com um estudo recente. Pesquisa publicada no arXiv O servidor de pré-impressão de Xiaoyan Bai e Chenhao Tan da Universidade de Chicago, juntamente com colaboradores do MIT, da Universidade de Harvard, da Universidade de Waterloo e do Google DeepMind, identificaram as razões para esta limitação e encontraram soluções. Os modelos padrão de linguagem grande alcançaram menos de 1% de precisão ao multiplicar dois números de quatro dígitos, mesmo com camadas aumentadas até 12. Esses modelos convergiram para um “ótimo local”, falhando em armazenar e recuperar cálculos intermediários necessários para a multiplicação de vários dígitos, que são categorizados como dependências de longo alcance. Por outro lado, um modelo treinado com o método Implicit Chain of Thought (ICoT) alcançou 100% de precisão. O modelo ICoT demonstrou capacidade de rastrear dependências de longo alcance e internalizar processos de raciocínio, removendo gradualmente etapas intermediárias de raciocínio durante o treinamento. A equipe de pesquisa decodificou valores intermediários, como somas acumuladas, dos estados internos do modelo ICoT, o que não foi possível com o modelo padrão de ajuste fino. O modelo ICoT organizou sua atenção em caminhos distintos, computando produtos de pares de dígitos em camadas iniciais e armazenando-os em locais específicos para recuperação em camadas posteriores. Isso criou uma estrutura interna eficiente para multiplicação. O estudo também descobriu que o modelo ICoT representava operações usando estruturas elegantes, codificando dígitos como padrões ondulatórios (bases de Fourier) e organizando a aritmética espacialmente. Durante a multiplicação de pares de dígitos, o modelo utilizou naturalmente uma operação geométrica chamada soma de Minkowski, que não foi explicitamente programada pelos pesquisadores. Os pesquisadores alcançaram 99% de precisão em um modelo de duas camadas, introduzindo um objetivo de treinamento modificado que ensinou o modelo a rastrear somas acumuladas em cada etapa, transportando assim valores intermediários e produtos parciais para frente. Esta adição permitiu ao modelo desenvolver mecanismos semelhantes aos do ICoT, incluindo armazenamento e recuperação de produtos parciais e rastreamento de pares de múltiplos dígitos simultaneamente. Chenhao Tan disse: “Nossa pesquisa está tentando mapear esse terreno”. O estudo destaca que os insights arquitetônicos e as técnicas de treinamento podem superar obstáculos que o dimensionamento por si só não consegue resolver, enfatizando a importância da orientação integrada no avanço das capacidades de IA. As descobertas iluminam aspectos fundamentais de como grandes modelos de linguagem aprendem e “pensam”, com o problema da dependência de longo alcance estendendo-se além da aritmética para outras tarefas sequenciais na modelagem de linguagem.


Crédito da imagem em destaque

Tags: IAmatemática

Related Posts

Pesquisadores desbloqueiam aprimoramento de 20 vezes em experimentos com laser ultrarrápido

Pesquisadores desbloqueiam aprimoramento de 20 vezes em experimentos com laser ultrarrápido

3 Junho 2026
Pesquisa mostra que 71% dos americanos acham que a IA está progredindo rápido demais

Pesquisa mostra que 71% dos americanos acham que a IA está progredindo rápido demais

20 Maio 2026
Cartões de pagamento roubados no Reino Unido são vendidos por US$ 12 na dark web, descobriu NordVPN

Cartões de pagamento roubados no Reino Unido são vendidos por US$ 12 na dark web, descobriu NordVPN

20 Maio 2026
Data centers e criptografia podem aumentar os custos de energia em 57% até 2030

Data centers e criptografia podem aumentar os custos de energia em 57% até 2030

20 Maio 2026
Habilidades de IA agora são vitais para promoções e aumentos de emprego, segundo estudo

Habilidades de IA agora são vitais para promoções e aumentos de emprego, segundo estudo

20 Maio 2026
O novo design de chip magnético pode superar os aceleradores de IA atuais

O novo design de chip magnético pode superar os aceleradores de IA atuais

19 Maio 2026

Recent Posts

  • As regras de desativação da pesquisa de IA do Google estimulam o lançamento do navegador Enviromates
  • Sony revela God of War: Laufey para PS5
  • Pesquisadores desbloqueiam aprimoramento de 20 vezes em experimentos com laser ultrarrápido
  • Microsoft lança Surface RTX Spark Dev Box para cargas de trabalho de IA
  • Os novos chips Core Ultra da Intel estão supostamente em falta

Recent Comments

Nenhum comentário para mostrar.
Dataconomy PT

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies to improve your experience. You can choose to accept or reject them. Visit our Privacy Policy.