Dataconomy PT
Subscribe
No Result
View All Result
Dataconomy PT
Subscribe
No Result
View All Result
Dataconomy PT
No Result
View All Result

Os pesquisadores do OpenAI identificam as causas matemáticas das alucinações de IA

byAytun Çelebi
17 Setembro 2025
in Artificial Intelligence, Research
Home Artificial Intelligence
Share on FacebookShare on Twitter

Pesquisadores do OpenAI publicaram um artigo diagnosticando por que grandes modelos de idiomas, como o ChatGPT Hallucinate, ou geram informações falsas com confiança.

O estudo Usa a análise matemática para explicar que as alucinações são um resultado inevitável de como esses modelos fazem previsões, mesmo quando treinados em dados perfeitos. As causas primárias são acumulação de erros e parâmetros de avaliação falha.

Como as previsões seqüenciais levam a erros

O artigo explica que o LLMS opera através de um processo autoregressivo, prevendo a próxima palavra em uma sequência com base nas palavras que vieram antes dela. Isso cria uma cadeia em que um único erro precoce pode se propagar e amplificar, levando a uma declaração totalmente incorreta. A prova matemática dos pesquisadores mostra que a taxa de erro para gerar uma frase completa é pelo menos o dobro da taxa de erro de uma pergunta simples sim/não, simplesmente por causa desse efeito composto. Essa limitação estrutural significa que as alucinações não podem ser completamente eliminadas, ampliando a computação de poder ou melhorando os dados de treinamento, pois o problema é inerente à arquitetura preditiva. O problema é pior para fatos que aparecem com pouca frequência nos dados de treinamento. O estudo constatou que cerca de 20% dos aniversários de números notáveis ​​apareceram apenas uma vez no conjunto de treinamento, levando a uma taxa de erro de linha de base de pelo menos 20% para essas consultas. Como exemplo prático, os pesquisadores consultaram modelos de ponta para o aniversário de Adam Kalai, um dos autores do artigo. Os modelos forneceram com confiança várias datas incorretas diferentes, demonstrando um padrão de fabricação de detalhes plausíveis para preencher lacunas de conhecimento.

Os benchmarks de avaliação penalizam a honestidade e incentivam a adivinhação

O estudo também critica os benchmarks usados ​​para avaliar os modelos de IA. Os pesquisadores revisaram dez proeminentes benchmarks de IA e descobriram que nove deles usam um sistema de classificação binária: Uma resposta é 100% correta ou 100% incorreta. Sob esse sistema, uma resposta de “não sei” recebe a mesma pontuação que uma resposta completamente errada – zero. Esse método de pontuação cria o que o artigo chama de “epidemia” de penalizar a honestidade. Uma prova matemática incluída no estudo demonstra que esse sistema incentiva os modelos para sempre adivinhar uma resposta, pois qualquer palpite tem uma probabilidade maior que zero de estar correto e, assim, receber uma pontuação mais alta do que se abster. Isso explica por que os modelos avançados são padrão para fabricação confiante, em vez de admitir incerteza.

Soluções propostas e o trade-off entre precisão e experiência do usuário

Para abordar isso, os pesquisadores do OpenAI propõem uma nova abordagem que integra a estimativa de confiança no comportamento do modelo e no processo de avaliação. Os modelos seriam treinados para avaliar sua própria certeza e seriam avaliados com um sistema de pontuação que penalize respostas incorretas mais fortemente do que as recompensas corretas. Por exemplo, um prompt pode instruir o modelo a “responder apenas se você estiver mais de 75 % confiante, pois os erros são penalizados 3 pontos enquanto as respostas corretas recebem 1 ponto”. A implementação disso reduziria significativamente as alucinações, mas tem um custo. O artigo estima que, sob esse sistema, os modelos responderiam com “eu não sei” a cerca de 30% das consultas do usuário. Isso pode ser frustrante para os usuários acostumados a receber uma resposta imediata para tudo, potencialmente levando -os a modelos de concorrentes menos cautelosos. O alto custo computacional de medir com precisão a incerteza também torna essa abordagem impraticável para serviços de consumo de alto volume. No entanto, o artigo observa que, para aplicações profissionais de alto risco em áreas como finanças, medicina ou design de chips, o custo de um erro é muito maior que o custo da computação, tornando os sistemas de consciência da incerteza não apenas viáveis, mas essenciais. O estudo conclui que os principais incentivos na IA do consumidor, que priorizam o envolvimento e a velocidade do usuário, garantirão que as alucinações permaneçam uma questão persistente até que essas prioridades mudem.


Crédito da imagem em destaque

Tags: AiApresentouopenAIPesquisar

Related Posts

Os laboratórios de IA investem em ambientes RL para agentes autônomos

Os laboratórios de IA investem em ambientes RL para agentes autônomos

17 Setembro 2025
A IA em escala garante contrato de US $ 100 milhões para o Pentágono para implantação da plataforma de IA

A IA em escala garante contrato de US $ 100 milhões para o Pentágono para implantação da plataforma de IA

17 Setembro 2025
A ferramenta de IA usa mamografias para prever a saúde cardíaca e o risco de câncer de 10 anos das mulheres

A ferramenta de IA usa mamografias para prever a saúde cardíaca e o risco de câncer de 10 anos das mulheres

17 Setembro 2025
O Google lança a plataforma de gêmeos de tela de gemini ai

O Google lança a plataforma de gêmeos de tela de gemini ai

17 Setembro 2025
Google libera Vaultgemma 1b com privacidade diferencial

Google libera Vaultgemma 1b com privacidade diferencial

17 Setembro 2025
Índice Econômico Antrópico revela Claude desigual.ai Adoção

Índice Econômico Antrópico revela Claude desigual.ai Adoção

17 Setembro 2025

Recent Posts

  • Os laboratórios de IA investem em ambientes RL para agentes autônomos
  • A IA em escala garante contrato de US $ 100 milhões para o Pentágono para implantação da plataforma de IA
  • A ferramenta de IA usa mamografias para prever a saúde cardíaca e o risco de câncer de 10 anos das mulheres
  • DJI Mini 5 Pro lançamentos com um sensor de 1 polegada, mas ignora o lançamento oficial dos EUA
  • O Google lança a plataforma de gêmeos de tela de gemini ai

Recent Comments

Nenhum comentário para mostrar.
Dataconomy PT

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.