Dataconomy PT
Subscribe
No Result
View All Result
Dataconomy PT
Subscribe
No Result
View All Result
Dataconomy PT
No Result
View All Result

Os pesquisadores do OpenAI identificam as causas matemáticas das alucinações de IA

byAytun Çelebi
17 Setembro 2025
in Artificial Intelligence, Research
Home Artificial Intelligence
Share on FacebookShare on Twitter

Pesquisadores do OpenAI publicaram um artigo diagnosticando por que grandes modelos de idiomas, como o ChatGPT Hallucinate, ou geram informações falsas com confiança.

O estudo Usa a análise matemática para explicar que as alucinações são um resultado inevitável de como esses modelos fazem previsões, mesmo quando treinados em dados perfeitos. As causas primárias são acumulação de erros e parâmetros de avaliação falha.

Como as previsões seqüenciais levam a erros

O artigo explica que o LLMS opera através de um processo autoregressivo, prevendo a próxima palavra em uma sequência com base nas palavras que vieram antes dela. Isso cria uma cadeia em que um único erro precoce pode se propagar e amplificar, levando a uma declaração totalmente incorreta. A prova matemática dos pesquisadores mostra que a taxa de erro para gerar uma frase completa é pelo menos o dobro da taxa de erro de uma pergunta simples sim/não, simplesmente por causa desse efeito composto. Essa limitação estrutural significa que as alucinações não podem ser completamente eliminadas, ampliando a computação de poder ou melhorando os dados de treinamento, pois o problema é inerente à arquitetura preditiva. O problema é pior para fatos que aparecem com pouca frequência nos dados de treinamento. O estudo constatou que cerca de 20% dos aniversários de números notáveis ​​apareceram apenas uma vez no conjunto de treinamento, levando a uma taxa de erro de linha de base de pelo menos 20% para essas consultas. Como exemplo prático, os pesquisadores consultaram modelos de ponta para o aniversário de Adam Kalai, um dos autores do artigo. Os modelos forneceram com confiança várias datas incorretas diferentes, demonstrando um padrão de fabricação de detalhes plausíveis para preencher lacunas de conhecimento.

Os benchmarks de avaliação penalizam a honestidade e incentivam a adivinhação

O estudo também critica os benchmarks usados ​​para avaliar os modelos de IA. Os pesquisadores revisaram dez proeminentes benchmarks de IA e descobriram que nove deles usam um sistema de classificação binária: Uma resposta é 100% correta ou 100% incorreta. Sob esse sistema, uma resposta de “não sei” recebe a mesma pontuação que uma resposta completamente errada – zero. Esse método de pontuação cria o que o artigo chama de “epidemia” de penalizar a honestidade. Uma prova matemática incluída no estudo demonstra que esse sistema incentiva os modelos para sempre adivinhar uma resposta, pois qualquer palpite tem uma probabilidade maior que zero de estar correto e, assim, receber uma pontuação mais alta do que se abster. Isso explica por que os modelos avançados são padrão para fabricação confiante, em vez de admitir incerteza.

Soluções propostas e o trade-off entre precisão e experiência do usuário

Para abordar isso, os pesquisadores do OpenAI propõem uma nova abordagem que integra a estimativa de confiança no comportamento do modelo e no processo de avaliação. Os modelos seriam treinados para avaliar sua própria certeza e seriam avaliados com um sistema de pontuação que penalize respostas incorretas mais fortemente do que as recompensas corretas. Por exemplo, um prompt pode instruir o modelo a “responder apenas se você estiver mais de 75 % confiante, pois os erros são penalizados 3 pontos enquanto as respostas corretas recebem 1 ponto”. A implementação disso reduziria significativamente as alucinações, mas tem um custo. O artigo estima que, sob esse sistema, os modelos responderiam com “eu não sei” a cerca de 30% das consultas do usuário. Isso pode ser frustrante para os usuários acostumados a receber uma resposta imediata para tudo, potencialmente levando -os a modelos de concorrentes menos cautelosos. O alto custo computacional de medir com precisão a incerteza também torna essa abordagem impraticável para serviços de consumo de alto volume. No entanto, o artigo observa que, para aplicações profissionais de alto risco em áreas como finanças, medicina ou design de chips, o custo de um erro é muito maior que o custo da computação, tornando os sistemas de consciência da incerteza não apenas viáveis, mas essenciais. O estudo conclui que os principais incentivos na IA do consumidor, que priorizam o envolvimento e a velocidade do usuário, garantirão que as alucinações permaneçam uma questão persistente até que essas prioridades mudem.


Crédito da imagem em destaque

Tags: AiApresentouopenAIPesquisar

Related Posts

IA corrompe pesquisas acadêmicas com citações de estudos inexistentes

IA corrompe pesquisas acadêmicas com citações de estudos inexistentes

30 Dezembro 2025
Modelos padrão de IA falham em matemática simples sem treinamento especializado

Modelos padrão de IA falham em matemática simples sem treinamento especializado

30 Dezembro 2025
As baterias de íon de sódio estão mais próximas do carregamento rápido à medida que os pesquisadores resolvem gargalos de íons

As baterias de íon de sódio estão mais próximas do carregamento rápido à medida que os pesquisadores resolvem gargalos de íons

30 Dezembro 2025
IA corrompe pesquisas acadêmicas com citações de estudos inexistentes

IA corrompe pesquisas acadêmicas com citações de estudos inexistentes

30 Dezembro 2025
Samsung Bixby ganha poderes de pesquisa Perplexity AI em nova atualização

Samsung Bixby ganha poderes de pesquisa Perplexity AI em nova atualização

29 Dezembro 2025
O Qwen Code v0.5.0 do Alibaba transforma o terminal em um ecossistema de desenvolvimento completo

O Qwen Code v0.5.0 do Alibaba transforma o terminal em um ecossistema de desenvolvimento completo

26 Dezembro 2025

Recent Posts

  • Gallery TV junta-se à linha de estilo de vida da LG com serviço de arte exclusivo
  • Por que o acordo Groq da Nvidia é tão importante para o futuro da IA
  • Altos custos de DDR5 levam ASUS a aumentar a produção de placas DDR4
  • A reprodução do anel de zoom do Xiaomi 17 Ultra é normal
  • Cliente da Tesla busca novo julgamento após restrições de gastos

Recent Comments

Nenhum comentário para mostrar.
Dataconomy PT

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.