Uma pesquisa recente da Apple sugere que os modelos que obtiveram uma pontuação alta no conjunto de dados GSM8K podem não ser tão inteligentes quanto parecem.
Os Large Language Models (LLMs) têm sido amplamente elogiados por suas habilidades de raciocínio aparentemente impressionantes. Modelos de empresas como OpenAI, Google e Meta são frequentemente apresentados como ferramentas poderosas capazes de resolver problemas complexos, com testes como o conjunto de dados GSM8K sendo uma referência popular para medir suas habilidades de raciocínio.
No entanto, a pesquisa da Apple pretende mudar o chamado sistema confiável.
O que é o conjunto de dados GSM8K?
O conjunto de dados GSM8K (Grade School Math 8K) é um benchmark usado para avaliar as habilidades de resolução de problemas e raciocínio de Large Language Models (LLMs). Consiste em mais de 8.000 problemas de palavras matemáticas de nível escolar, que normalmente exigem aritmética, raciocínio lógico e habilidades de resolução de problemas em várias etapas para chegar à resposta correta.
O conjunto de dados GSM8K consiste em:
- Matemática em nível de ensino fundamental: os problemas são projetados para imitar o tipo de perguntas que um aluno da 1ª à 8ª série pode encontrar, como aritmética básica, geometria, álgebra e quebra-cabeças lógicos.
- Problemas com palavras: Cada questão é apresentada em formato de problema de palavras, exigindo que o modelo interprete o problema, identifique os números e operações relevantes e resolva a equação.
- Usado para avaliação LLM: o conjunto de dados é frequentemente usado como um teste para ver até que ponto modelos de linguagem como o GPT da OpenAI, os modelos do Google ou o LLaMA da Meta podem lidar com tarefas de raciocínio além da mera previsão de texto.
- Raciocínio em várias etapas: Os problemas requerem múltiplas etapas para serem resolvidos, testando a capacidade do modelo de rastrear sequências complexas de raciocínio, em vez de simplesmente produzir uma resposta em uma única etapa.
O conjunto de dados GSM8K tornou-se uma ferramenta popular para avaliar se os LLMs podem raciocinar logicamente e resolver problemas do mundo real. No entanto, existe a preocupação de que muitos modelos de IA tenham um bom desempenho neste conjunto de dados através da correspondência de padrões, em vez do raciocínio verdadeiro, uma vez que podem ter sido expostos a problemas semelhantes durante o treino.

As limitações dos LLMs do conjunto de dados GSM8K
Os pesquisadores da Apple argumentam que esse sucesso pode ser mais uma questão de correspondência sofisticada de padrões do que de raciocínio lógico genuíno. Como o conjunto de dados GSM8K é tão comumente usado, existe o risco de contaminação de dados – o que significa que muitos LLMs podem já ter visto esses problemas durante o treinamento, aumentando sua aparente inteligência.
Para resolver isso, a Apple desenvolveu um novo benchmark chamado GSM-Simbólico. Este teste mantém os principais elementos de raciocínio do conjunto de dados GSM8K, mas introduz alterações como nomes, números e complexidade diferentes, juntamente com informações irrelevantes.
Os resultados? Todos os LLM testados, incluindo modelos como o OpenAI GPT-4 e Meta Lhama 3viu uma queda significativa no desempenho quando confrontado com este novo desafio. Isto sugere que LLMs lutam com o raciocínio verdadeiro quando as variáveis são alteradasquestionando ainda mais suas reais habilidades de resolução de problemas.
Por que os LLMs têm dificuldades?
O estudo da Apple esclarece uma falha crítica nos LLMs: Eles são excelentes na detecção de padrões nos dados de treinamento, mas carecem de um raciocínio lógico verdadeiro.. Por exemplo, quando os problemas matemáticos incluíam detalhes irrelevantes, como o tamanho dos kiwis num cenário de colheita de fruta, muitos LLMs subtraíam esses detalhes irrelevantes da equação, demonstrando uma falha em discernir quais as informações necessárias para resolver o problema.
Em testes com o Conjunto de dados GSM8KLLMs como os modelos OpenAI tiveram melhor desempenho do que seus equivalentes de código aberto, mas a queda na precisão quando informações irrelevantes foram adicionadas sugere que esses sistemas estão longe de alcançar inteligência genuína. Isto tem implicações profundas para o desenvolvimento futuro da IA, mostrando que, embora os LLM possam imitar a inteligência, ainda têm dificuldade em compreender verdadeiramente o contexto.

IA mais inteligente ou apenas melhor em parecer inteligente?
A pesquisa da Apple sublinha as limitações de confiar em benchmarks como o conjunto de dados GSM8K para avaliar a inteligência da IA. Embora esses testes possam medir o reconhecimento de padrões, eles nem sempre capturam as nuances do verdadeiro raciocínio lógico. A introdução do benchmark GSM-Symbolic fornece um teste mais rigoroso da capacidade de uma IA de lidar com variáveis desconhecidas e informações irrelevantes – habilidades essenciais para a resolução de problemas do mundo real.
Sam Altman, CEO da OpenAI, até reconheceu esses desafios, referindo-se aos LLMs atuais como “incrivelmente burro” apesar de sua impressionante aparência externa em uma entrevista exclusiva com Revisão de tecnologia do MIT. O verdadeiro teste para futuros LLMs será a sua capacidade de ir além do reconhecimento de padrões e desenvolver habilidades mais robustas de resolução de problemas.
As descobertas do estudo da Apple oferecem uma perspectiva preocupante sobre o estado atual dos LLMs. Embora os modelos sejam treinados em conjuntos de dados como GSM8K Embora possam ter um bom desempenho em ambientes controlados, suas habilidades de raciocínio falham quando testadas em problemas mais complexos do mundo real. Isto realça a importância de mais investigação e desenvolvimento para garantir que os modelos de IA vão além da inteligência superficial e desenvolvem verdadeiras competências de raciocínio lógico.
Por agoraé crucial moderar o entusiasmo em torno da IA com um ceticismo saudável, concentrando-se em sistemas de IA mais seguros e inteligentes que possam lidar com mais do que apenas o reconhecimento de padrões.
Créditos da imagem: Estúdio DC/Freepik