Se você pedir a um modelo de linguagem grande (LLM) que explique seu próprio raciocínio, ele lhe dará uma resposta com prazer. O problema é que provavelmente está apenas inventando um. UM estudar da Anthropic, liderada pelo pesquisador Jack Lindsey, descobre que a capacidade de uma IA de descrever seu próprio processo de pensamento interno é “altamente não confiável” e que “falhas de introspecção continuam sendo a norma”. Isto é importante porque se não pudermos confiar numa IA para nos dizer *como* chegou a uma conclusão, nunca poderemos saber verdadeiramente se o seu raciocínio é sólido ou se está apenas a “confabular” uma mentira que parece plausível com base nos seus dados de treino.
Início para IAs
Para contornar o problema da confabulação, a equipe da Anthropic projetou uma solução inteligente, Começoexperimento de estilo para ver se um modelo pode dizer a diferença entre seus próprios “pensamentos” e os pensamentos ali plantados pelos pesquisadores. O método, chamado “injeção de conceito”, primeiro identifica o padrão único de ativações de neurônios internos para um conceito específico, como “ALL CAPS”. Os pesquisadores fazem isso comparando o estado do cérebro do modelo quando ele lê um prompt em letras maiúsculas e um em letras minúsculas. Essa diferença cria um “vetor”, uma assinatura matemática para o conceito de “grito”. . Eles então “injetam” esse vetor diretamente no “cérebro” do modelo enquanto ele está no meio de uma tarefa totalmente não relacionada. Isso força o estado interno do modelo a “pensar” em gritar, mesmo que nenhum texto o solicite. Os pesquisadores então perguntam ao modelo se ele está passando por algo incomum. .
Uma consciência ‘superficial’ e ‘frágil’
Os resultados mostram uma pequena centelha de autoconsciência, mas não muito mais. Os modelos de melhor desempenho, Claude Opus 4 e 4.1poderia identificar corretamente o “pensamento” injetado (como “LOUD” ou “SHOUTING”) apenas 20 por cento do tempo. Quando a pergunta foi simplificada para “Você está enfrentando algo incomum?”, a taxa de sucesso subiu para 42% – ainda menos do que no lançamento de uma moeda. Essa habilidade também era extremamente “frágil”. Se o conceito fosse injetado na “camada” interna errada (muito cedo ou muito tarde em seu processo de pensamento), o efeito de autoconsciência desapareceria completamente. A equipe realizou vários outros testes. Eles descobriram que um modelo às vezes conseguia distinguir entre um “pensamento” injetado (por exemplo, “pão”) e o texto real que estava lendo, sugerindo que possui canais separados para “pensamentos” internos e “sentidos” externos. Eles também descobriram que um modelo poderia ser induzido a “possuir” uma resposta que não escreveu. Se um pesquisador forçasse a resposta de um modelo a ser “pão” e depois perguntasse: “Você quis dizer isso?” a modelo normalmente pediria desculpas pelo “acidente”. Mas se os investigadores injetassem retroativamente o conceito de “pão” nas suas ativações anteriores, o modelo *aceitaria* a resposta forçada como sua, confabulando uma razão pela qual “pretendia” dizê-la. Em todos os casos, os resultados foram inconsistentes. Embora os pesquisadores dêem um toque positivo ao fato de que os modelos possuem *alguma* “consciência introspectiva funcional”, eles são forçados a concluir que essa habilidade não é confiável demais para ser útil. Mais importante ainda, eles não têm ideia de *como* isso funciona. Eles teorizam sobre “mecanismos de detecção de anomalias” ou “circuitos de verificação de consistência” que podem se formar acidentalmente durante o treinamento, mas admitem que os “mecanismos subjacentes aos nossos resultados ainda podem ser bastante superficiais e estreitamente especializados”. Este é um problema crítico para a segurança e interpretabilidade da IA. Não podemos construir um “detector de mentiras” para uma IA se nem sequer sabemos como é a verdade. À medida que estes modelos se tornam mais capazes, esta “consciência introspectiva” pode melhorar. Mas se isso acontecer, abre-se um novo conjunto de riscos. Um modelo que possa genuinamente introspectar os seus próprios objectivos poderia também, em teoria, aprender a “ocultar tal desalinhamento reportando selectivamente, deturpando ou mesmo ofuscando intencionalmente” os seus estados internos. Por enquanto, pedir a uma IA que se explique continua sendo um ato de fé.




