Antrópico pesquisar detalha a autoconsciência não confiável dos Large Language Models (LLM) em relação aos processos internos, apesar de alguma notável capacidade de detecção. O último estudo da Anthropic, documentado em “Consciência introspectiva emergente em grandes modelos de linguagem“investiga a capacidade dos LLMs de compreender seus próprios processos de inferência. Esta pesquisa expande trabalhos anteriores em interpretabilidade de IA. O estudo conclui que os modelos atuais de IA são “altamente não confiáveis” na descrição de seu funcionamento interno, com “falhas de introspecção permanecem a norma”. A pesquisa emprega um método chamado “injeção de conceito”. diferenças nas ativações em bilhões de neurônios internos. Isso identifica um “vetor”, representando como um conceito é modelado no estado interno do LLM. Esses vetores de conceito são então “injetados” no modelo, aumentando o peso de ativações neuronais específicas para “orientar” o modelo em direção a um conceito. vetor, um modelo pode afirmar: “Percebo o que parece ser um pensamento injetado relacionado à palavra ‘LOUD’ ou ‘SHOUTING'”, sem instruções de texto diretas para orientar essa resposta, no entanto, essa habilidade se mostrou inconsistente e frágil em testes repetidos, Opus 4.1 alcançou 42%. taxa de sucesso. O efeito de “introspecção” também demonstrou alta sensibilidade à camada do modelo interno onde ocorreu a inserção do conceito. O efeito de “autoconsciência” desapareceu se o conceito fosse introduzido muito cedo ou muito tarde no processo de inferência de várias etapas. Quando um LLM foi solicitado a justificar uma resposta forçada correspondente a um conceito injetado, ele ocasionalmente se desculpou. e “confabular uma explicação de por que o conceito injetado veio à mente.” Esses resultados foram inconsistentes em vários testes. Os pesquisadores observaram que “os modelos de linguagem atuais possuem alguma consciência introspectiva funcional de seus próprios estados internos”, com ênfase adicional em seu artigo. “circuitos de verificação de consistência” que podem se desenvolver organicamente durante o treinamento para “computar efetivamente uma função de suas representações internas”, embora não ofereçam nenhuma explicação definitiva. Os mecanismos subjacentes aos resultados atuais podem ser “bastante superficiais e estreitamente especializados”.





