A Apple diz que uma pontuação alta no conjunto de dados GSM8K não significa que sua IA seja mais inteligente

Uma pesquisa recente da Apple sugere que os modelos que obtiveram uma pontuação alta no conjunto de dados GSM8K podem não ser tão inteligentes quanto parecem.

Os Large Language Models (LLMs) têm sido amplamente elogiados por suas habilidades de raciocínio aparentemente impressionantes. Modelos de empresas como OpenAI, Google e Meta são frequentemente apresentados como ferramentas poderosas capazes de resolver problemas complexos, com testes como o conjunto de dados GSM8K sendo uma referência popular para medir suas habilidades de raciocínio.

No entanto, a pesquisa da Apple pretende mudar o chamado sistema confiável.

O que é o conjunto de dados GSM8K?

O conjunto de dados GSM8K (Grade School Math 8K) é um benchmark usado para avaliar as habilidades de resolução de problemas e raciocínio de Large Language Models (LLMs). Consiste em mais de 8.000 problemas de palavras matemáticas de nível escolar, que normalmente exigem aritmética, raciocínio lógico e habilidades de resolução de problemas em várias etapas para chegar à resposta correta.

O conjunto de dados GSM8K consiste em:

Matemática em nível de ensino fundamental: os problemas são projetados para imitar o tipo de perguntas que um aluno da 1ª à 8ª série pode encontrar, como aritmética básica, geometria, álgebra e quebra-cabeças lógicos.
Problemas com palavras: Cada questão é apresentada em formato de problema de palavras, exigindo que o modelo interprete o problema, identifique os números e operações relevantes e resolva a equação.
Usado para avaliação LLM: o conjunto de dados é frequentemente usado como um teste para ver até que ponto modelos de linguagem como o GPT da OpenAI, os modelos do Google ou o LLaMA da Meta podem lidar com tarefas de raciocínio além da mera previsão de texto.
Raciocínio em várias etapas: Os problemas requerem múltiplas etapas para serem resolvidos, testando a capacidade do modelo de rastrear sequências complexas de raciocínio, em vez de simplesmente produzir uma resposta em uma única etapa.

O conjunto de dados GSM8K tornou-se uma ferramenta popular para avaliar se os LLMs podem raciocinar logicamente e resolver problemas do mundo real. No entanto, existe a preocupação de que muitos modelos de IA tenham um bom desempenho neste conjunto de dados através da correspondência de padrões, em vez do raciocínio verdadeiro, uma vez que podem ter sido expostos a problemas semelhantes durante o treino.

Conjunto de dados GSM8K pesquisa da Apple GSM-Symbolic — **O conjunto de dados GSM8K contém mais de 8.000 problemas matemáticos de nível escolar**

As limitações dos LLMs do conjunto de dados GSM8K

Os pesquisadores da Apple argumentam que esse sucesso pode ser mais uma questão de correspondência sofisticada de padrões do que de raciocínio lógico genuíno. Como o conjunto de dados GSM8K é tão comumente usado, existe o risco de contaminação de dados – o que significa que muitos LLMs podem já ter visto esses problemas durante o treinamento, aumentando sua aparente inteligência.

Para resolver isso, a Apple desenvolveu um novo benchmark chamado GSM-Simbólico. Este teste mantém os principais elementos de raciocínio do conjunto de dados GSM8K, mas introduz alterações como nomes, números e complexidade diferentes, juntamente com informações irrelevantes.

Os resultados? Todos os LLM testados, incluindo modelos como o OpenAI GPT-4 e Meta Lhama 3viu uma queda significativa no desempenho quando confrontado com este novo desafio. Isto sugere que LLMs lutam com o raciocínio verdadeiro quando as variáveis são alteradasquestionando ainda mais suas reais habilidades de resolução de problemas.

Por que os LLMs têm dificuldades?

O estudo da Apple esclarece uma falha crítica nos LLMs: Eles são excelentes na detecção de padrões nos dados de treinamento, mas carecem de um raciocínio lógico verdadeiro.. Por exemplo, quando os problemas matemáticos incluíam detalhes irrelevantes, como o tamanho dos kiwis num cenário de colheita de fruta, muitos LLMs subtraíam esses detalhes irrelevantes da equação, demonstrando uma falha em discernir quais as informações necessárias para resolver o problema.

Em testes com o Conjunto de dados GSM8KLLMs como os modelos OpenAI tiveram melhor desempenho do que seus equivalentes de código aberto, mas a queda na precisão quando informações irrelevantes foram adicionadas sugere que esses sistemas estão longe de alcançar inteligência genuína. Isto tem implicações profundas para o desenvolvimento futuro da IA, mostrando que, embora os LLM possam imitar a inteligência, ainda têm dificuldade em compreender verdadeiramente o contexto.

IA mais inteligente ou apenas melhor em parecer inteligente?

A pesquisa da Apple sublinha as limitações de confiar em benchmarks como o conjunto de dados GSM8K para avaliar a inteligência da IA. Embora esses testes possam medir o reconhecimento de padrões, eles nem sempre capturam as nuances do verdadeiro raciocínio lógico. A introdução do benchmark GSM-Symbolic fornece um teste mais rigoroso da capacidade de uma IA de lidar com variáveis desconhecidas e informações irrelevantes – habilidades essenciais para a resolução de problemas do mundo real.

Sam Altman, CEO da OpenAI, até reconheceu esses desafios, referindo-se aos LLMs atuais como “incrivelmente burro” apesar de sua impressionante aparência externa em uma entrevista exclusiva com Revisão de tecnologia do MIT. O verdadeiro teste para futuros LLMs será a sua capacidade de ir além do reconhecimento de padrões e desenvolver habilidades mais robustas de resolução de problemas.

As descobertas do estudo da Apple oferecem uma perspectiva preocupante sobre o estado atual dos LLMs. Embora os modelos sejam treinados em conjuntos de dados como GSM8K Embora possam ter um bom desempenho em ambientes controlados, suas habilidades de raciocínio falham quando testadas em problemas mais complexos do mundo real. Isto realça a importância de mais investigação e desenvolvimento para garantir que os modelos de IA vão além da inteligência superficial e desenvolvem verdadeiras competências de raciocínio lógico.

Por agoraé crucial moderar o entusiasmo em torno da IA com um ceticismo saudável, concentrando-se em sistemas de IA mais seguros e inteligentes que possam lidar com mais do que apenas o reconhecimento de padrões.

Créditos da imagem: Estúdio DC/Freepik

A Apple diz que uma pontuação alta no conjunto de dados GSM8K não significa que sua IA seja mais inteligente

Related Posts

Por que o aprendizado de máquina se tornou uma ferramenta fundamental na precificação dinâmica

Detecção automática de formato de arquivo em projetos de migração de dados

Explorando portais para conselhos como software de tecnologia

O futuro está no seu bolso: como migrar IA para smartphones

Startup britânica desenvolve microprocessador dobrável capaz de executar modelos de ML por menos de 1 dólar

O papel da IA e do aprendizado de máquina na segurança da nuvem

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

A Apple diz que uma pontuação alta no conjunto de dados GSM8K não significa que sua IA seja mais inteligente

O que é o conjunto de dados GSM8K?

As limitações dos LLMs do conjunto de dados GSM8K

Por que os LLMs têm dificuldades?

IA mais inteligente ou apenas melhor em parecer inteligente?

Related Posts

Por que o aprendizado de máquina se tornou uma ferramenta fundamental na precificação dinâmica

Detecção automática de formato de arquivo em projetos de migração de dados

Explorando portais para conselhos como software de tecnologia

O futuro está no seu bolso: como migrar IA para smartphones

Startup britânica desenvolve microprocessador dobrável capaz de executar modelos de ML por menos de 1 dólar

O papel da IA ​​e do aprendizado de máquina na segurança da nuvem

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Follow Us

O papel da IA e do aprendizado de máquina na segurança da nuvem