Dataconomy PT
Subscribe
No Result
View All Result
Dataconomy PT
Subscribe
No Result
View All Result
Dataconomy PT
No Result
View All Result

A nova estrutura de teste de estresse revela falhas no raciocínio avançado da IA

byKerem Gülen
29 Julho 2025
in Pesquisar
Home Pesquisar
Share on FacebookShare on Twitter
Google Preferred Source

Enquanto sistemas de IA avançados conhecidos como Grandes modelos de raciocínio (LRMS) Demonstraram desempenho impressionante em benchmarks complexos de solução de problemas, seus verdadeiros recursos de raciocínio podem ser superestimados pelos métodos atuais de avaliação. De acordo com um artigo recente de Sajjad Ansari, uma nova estrutura de teste de estresse com vários problemas revela que mesmo os modelos de ponta lutam sob condições mais realistas.

A estrutura, detalhada no artigo REST: Uma estrutura de teste de estresse para avaliar o raciocínio de vários problemas em grandes modelos de raciocíniofoi desenvolvido por pesquisadores da Universidade de Tsinghua, Opendatalab, Shanghai AI Laboratory e Renmin University para abordar lacunas críticas na maneira como esses modelos avançados são testados.

Por que os testes de pergunta única estão se tornando obsoletos

A maioria dos benchmarks atuais usados para avaliar o LRMS, como GSM8K e Math, avaliar modelos fazendo uma pergunta por vez. Essa abordagem possui duas desvantagens significativas que limitam sua eficácia para medir a verdadeira capacidade de raciocínio. Primeiro, o poder discriminativo desses benchmarks está diminuindo à medida que os principais modelos atingem escores quase perfeitos, dificultando a distinção de melhorias significativas entre eles. Por exemplo, alguns modelos agora alcançam 97% Precisão em benchmarks como Math500, um nível de saturação que força a criação cara de conjuntos de dados cada vez mais duros.

Segundo, os testes de pergunta única não refletem cenários do mundo real, onde os sistemas de IA devem raciocinar em vários problemas potencialmente interferindo ao mesmo tempo. Aplicativos como suporte técnico, tutoria educacional ou assistentes de IA multitarefa exigem gerenciamento dinâmico de carga cognitiva, uma habilidade que os testes isolados não podem medir. Para abordar isso, os pesquisadores desenvolveram REST (avaliação de raciocínio por meio de testes simultâneos), um método que agrupa várias perguntas dos benchmarks existentes em um único aviso para simular melhor as demandas do mundo real.


O grande paradoxo da AI Trust está caindo à medida que seu valor sobe


Principais conclusões de testes de estresse com vários problemas

Aplicando a estrutura de REST a 34 LRMs avançados, pesquisadores descobriram várias idéias inovadoras sobre suas verdadeiras capacidades. A avaliação, conduzida em 7 Diversas parâmetros de referência, revelou que o desempenho degrada significativamente quando os modelos são forçados a lidar com vários problemas simultaneamente.

  • Degradação significativa do desempenho: Mesmo modelos de melhor desempenho como DeepSeek-R1 mostraram uma queda notável de precisão quando testada com descanso. Em benchmarks desafiadores como o AIME24, a precisão do modelo caiu quase 30% Comparado ao seu desempenho em testes de perguntas isoladas.
  • Poder discriminativo aprimorado: Rest amplificou drasticamente as diferenças de desempenho entre os modelos que pareciam semelhantes nos testes de pergunta única. Na referência Math500, dois modelos com pontuações iniciais estreitas de 93% e 94,6% mostrou um enorme 22% lacuna de desempenho em repouso, com suas precisões caindo para 66,75% e 88,97%respectivamente.
  • Método de treinamento Insights: O estudo constatou que os modelos ajustados com métodos comuns, como o aprendizado de reforço em tarefas de problemas únicos, geralmente não conseguem manter seu vantagem em uma configuração de vários problemas. No entanto, os modelos treinados com técnicas “Long2Short”, que incentivam o raciocínio mais conciso e eficiente, mantiveram maior precisão sob estresse, sugerindo uma direção promissora para o desenvolvimento futuro.

A estrutura de restos simula uma alta carga cognitivaforçando os modelos para alocar dinamicamente recursos, resistir à interferência de tarefas simultâneas e evitar superar um único problema. Esse método também permite uma análise mais sutil de erros que são invisíveis nos testes de pergunta única, como omissão de perguntas, onde um modelo ignora perguntas posteriores em um prompt e erros de resumo, onde sintetiza incorretamente as respostas de vários problemas. Ao revitalizar os conjuntos de dados existentes e refletir as demandas do mundo real, a estrutura fornece um paradigma mais confiável e à prova de futuro para avaliar os sistemas de IA de raciocínio de próxima geração.

Tags: llmLRM

Related Posts

Pesquisadores desbloqueiam aprimoramento de 20 vezes em experimentos com laser ultrarrápido

Pesquisadores desbloqueiam aprimoramento de 20 vezes em experimentos com laser ultrarrápido

3 Junho 2026
Pesquisa mostra que 71% dos americanos acham que a IA está progredindo rápido demais

Pesquisa mostra que 71% dos americanos acham que a IA está progredindo rápido demais

20 Maio 2026
Cartões de pagamento roubados no Reino Unido são vendidos por US$ 12 na dark web, descobriu NordVPN

Cartões de pagamento roubados no Reino Unido são vendidos por US$ 12 na dark web, descobriu NordVPN

20 Maio 2026
Data centers e criptografia podem aumentar os custos de energia em 57% até 2030

Data centers e criptografia podem aumentar os custos de energia em 57% até 2030

20 Maio 2026
Habilidades de IA agora são vitais para promoções e aumentos de emprego, segundo estudo

Habilidades de IA agora são vitais para promoções e aumentos de emprego, segundo estudo

20 Maio 2026
O novo design de chip magnético pode superar os aceleradores de IA atuais

O novo design de chip magnético pode superar os aceleradores de IA atuais

19 Maio 2026

Recent Posts

  • As regras de desativação da pesquisa de IA do Google estimulam o lançamento do navegador Enviromates
  • Sony revela God of War: Laufey para PS5
  • Pesquisadores desbloqueiam aprimoramento de 20 vezes em experimentos com laser ultrarrápido
  • Microsoft lança Surface RTX Spark Dev Box para cargas de trabalho de IA
  • Os novos chips Core Ultra da Intel estão supostamente em falta

Recent Comments

Nenhum comentário para mostrar.
Dataconomy PT

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies to improve your experience. You can choose to accept or reject them. Visit our Privacy Policy.