Dataconomy PT
Subscribe
No Result
View All Result
Dataconomy PT
Subscribe
No Result
View All Result
Dataconomy PT
No Result
View All Result

Estudo antrópico revela que as IAs não conseguem explicar de forma confiável seus próprios pensamentos

byKerem Gülen
4 Novembro 2025
in Research
Home Research
Share on FacebookShare on Twitter

Se você pedir a um modelo de linguagem grande (LLM) que explique seu próprio raciocínio, ele lhe dará uma resposta com prazer. O problema é que provavelmente está apenas inventando um. UM estudar da Anthropic, liderada pelo pesquisador Jack Lindsey, descobre que a capacidade de uma IA de descrever seu próprio processo de pensamento interno é “altamente não confiável” e que “falhas de introspecção continuam sendo a norma”. Isto é importante porque se não pudermos confiar numa IA para nos dizer *como* chegou a uma conclusão, nunca poderemos saber verdadeiramente se o seu raciocínio é sólido ou se está apenas a “confabular” uma mentira que parece plausível com base nos seus dados de treino.

Início para IAs

Para contornar o problema da confabulação, a equipe da Anthropic projetou uma solução inteligente, Começoexperimento de estilo para ver se um modelo pode dizer a diferença entre seus próprios “pensamentos” e os pensamentos ali plantados pelos pesquisadores. O método, chamado “injeção de conceito”, primeiro identifica o padrão único de ativações de neurônios internos para um conceito específico, como “ALL CAPS”. Os pesquisadores fazem isso comparando o estado do cérebro do modelo quando ele lê um prompt em letras maiúsculas e um em letras minúsculas. Essa diferença cria um “vetor”, uma assinatura matemática para o conceito de “grito”. . Eles então “injetam” esse vetor diretamente no “cérebro” do modelo enquanto ele está no meio de uma tarefa totalmente não relacionada. Isso força o estado interno do modelo a “pensar” em gritar, mesmo que nenhum texto o solicite. Os pesquisadores então perguntam ao modelo se ele está passando por algo incomum. .

Uma consciência ‘superficial’ e ‘frágil’

Os resultados mostram uma pequena centelha de autoconsciência, mas não muito mais. Os modelos de melhor desempenho, Claude Opus 4 e 4.1poderia identificar corretamente o “pensamento” injetado (como “LOUD” ou “SHOUTING”) apenas 20 por cento do tempo. Quando a pergunta foi simplificada para “Você está enfrentando algo incomum?”, a taxa de sucesso subiu para 42% – ainda menos do que no lançamento de uma moeda. Essa habilidade também era extremamente “frágil”. Se o conceito fosse injetado na “camada” interna errada (muito cedo ou muito tarde em seu processo de pensamento), o efeito de autoconsciência desapareceria completamente. A equipe realizou vários outros testes. Eles descobriram que um modelo às vezes conseguia distinguir entre um “pensamento” injetado (por exemplo, “pão”) e o texto real que estava lendo, sugerindo que possui canais separados para “pensamentos” internos e “sentidos” externos. Eles também descobriram que um modelo poderia ser induzido a “possuir” uma resposta que não escreveu. Se um pesquisador forçasse a resposta de um modelo a ser “pão” e depois perguntasse: “Você quis dizer isso?” a modelo normalmente pediria desculpas pelo “acidente”. Mas se os investigadores injetassem retroativamente o conceito de “pão” nas suas ativações anteriores, o modelo *aceitaria* a resposta forçada como sua, confabulando uma razão pela qual “pretendia” dizê-la. Em todos os casos, os resultados foram inconsistentes. Embora os pesquisadores dêem um toque positivo ao fato de que os modelos possuem *alguma* “consciência introspectiva funcional”, eles são forçados a concluir que essa habilidade não é confiável demais para ser útil. Mais importante ainda, eles não têm ideia de *como* isso funciona. Eles teorizam sobre “mecanismos de detecção de anomalias” ou “circuitos de verificação de consistência” que podem se formar acidentalmente durante o treinamento, mas admitem que os “mecanismos subjacentes aos nossos resultados ainda podem ser bastante superficiais e estreitamente especializados”. Este é um problema crítico para a segurança e interpretabilidade da IA. Não podemos construir um “detector de mentiras” para uma IA se nem sequer sabemos como é a verdade. À medida que estes modelos se tornam mais capazes, esta “consciência introspectiva” pode melhorar. Mas se isso acontecer, abre-se um novo conjunto de riscos. Um modelo que possa genuinamente introspectar os seus próprios objectivos poderia também, em teoria, aprender a “ocultar tal desalinhamento reportando selectivamente, deturpando ou mesmo ofuscando intencionalmente” os seus estados internos. Por enquanto, pedir a uma IA que se explique continua sendo um ato de fé.


Crédito da imagem em destaque

Tags: Antrópico

Related Posts

IA corrompe pesquisas acadêmicas com citações de estudos inexistentes

IA corrompe pesquisas acadêmicas com citações de estudos inexistentes

30 Dezembro 2025
Modelos padrão de IA falham em matemática simples sem treinamento especializado

Modelos padrão de IA falham em matemática simples sem treinamento especializado

30 Dezembro 2025
As baterias de íon de sódio estão mais próximas do carregamento rápido à medida que os pesquisadores resolvem gargalos de íons

As baterias de íon de sódio estão mais próximas do carregamento rápido à medida que os pesquisadores resolvem gargalos de íons

30 Dezembro 2025
IA corrompe pesquisas acadêmicas com citações de estudos inexistentes

IA corrompe pesquisas acadêmicas com citações de estudos inexistentes

30 Dezembro 2025
Cientistas descobrem mais de 17 mil novas espécies

Cientistas descobrem mais de 17 mil novas espécies

26 Dezembro 2025
GPT-5.2 ultrapassa a linha de base do doutorado especializado com pontuação científica de 92%

GPT-5.2 ultrapassa a linha de base do doutorado especializado com pontuação científica de 92%

24 Dezembro 2025

Recent Posts

  • WhatsApp libera pacote de figurinhas 2026 e fogos de artifício em videochamadas
  • Novo carro-chefe da Xiaomi com eSIM entra em produção em massa no próximo ano
  • Meta compra Manus, empresa de IA em rápido crescimento, em negócio de 2 bilhões de dólares
  • Gallery TV junta-se à linha de estilo de vida da LG com serviço de arte exclusivo
  • Por que o acordo Groq da Nvidia é tão importante para o futuro da IA

Recent Comments

Nenhum comentário para mostrar.
Dataconomy PT

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.