Nova pesquisa mostra que a lógica da IA sobrevive mesmo quando sua memória é apagada

Os pesquisadores da Goodfire.ai isolaram caminhos de memorização e raciocínio em redes neurais de IA, detalhados em uma pré-impressão do final de outubro papel. A pesquisa demonstra uma separação clara dessas funções em grandes modelos de linguagem. Quando os caminhos de memorização foram removidos, os modelos perderam 97% de sua capacidade de recitar dados de treinamento literalmente. A sua capacidade de “raciocínio lógico”, no entanto, permaneceu praticamente intacta. Os pesquisadores classificaram os componentes do peso de alto a baixo com base na “curvatura”. No modelo de linguagem OLMo-7B do Allen Institute for AI, a camada 22 mostrou que os 50% inferiores dos componentes de peso tinham ativação 23% maior nos dados memorizados. Por outro lado, os 10% mais ricos exibiram uma ativação 26% maior em textos gerais não memorizados. Essa divisão mecanicista permitiu a remoção cirúrgica da memorização, preservando outras capacidades. A exclusão dos componentes com classificação inferior eliminou a memorização; manter os mais bem classificados lidava com a resolução de problemas. As operações aritméticas parecem compartilhar caminhos neurais com a memorização, em vez do raciocínio lógico. A remoção dos circuitos de memorização fez com que o desempenho matemático caísse para 66%, enquanto as tarefas lógicas permaneceram quase intocadas. Isto pode explicar por que os modelos de IA têm dificuldades com a matemática sem ferramentas externas, baseando-se em factos memorizados como “2+2=4” em vez de computação. O “raciocínio” da IA abrange habilidades como avaliar declarações verdadeiras/falsas e seguir regras se-então, que sobreviveram à remoção da memória. Isso difere do “raciocínio matemático” mais profundo necessário para provas ou novas soluções de problemas, com os quais os modelos atuais de IA lutam, mesmo com habilidades intactas de correspondência de padrões. O desenvolvimento futuro destas técnicas de remoção de informações poderia permitir que as empresas de IA removessem conteúdo protegido por direitos autorais, informações privadas ou textos memorizados prejudiciais das redes neurais sem destruir o desempenho transformador da tarefa. No entanto, os investigadores afirmam que o seu método “não pode garantir a eliminação completa de informações sensíveis” devido à natureza distribuída do armazenamento de informações nas redes neurais. A compreensão dessa distinção envolve o “cenário de perdas”, uma visualização da precisão da previsão de um modelo de IA com base em configurações internas ou “pesos”. “Perda” mede erros, com perda baixa indicando poucos erros. A “paisagem” mapeia as taxas de erro para todas as combinações de configurações possíveis. Durante o treinamento, os modelos de IA ajustam os pesos para minimizar os erros, efetivamente “rolando ladeira abaixo” neste cenário. Os pesquisadores analisaram a “curvatura” dos cenários de perdas, medindo a sensibilidade do desempenho do modelo a pequenas mudanças nos pesos das redes neurais. A curvatura alta indica picos e vales acentuados, o que significa que pequenas mudanças têm efeitos significativos. Baixa curvatura significa planícies onde as mudanças têm impacto mínimo. Esses valores de curvatura foram usados para classificar os componentes de peso. Usando K-FAC (curvatura aproximada fatorada por Kronecker), os cientistas descobriram que fatos memorizados individuais criam picos nítidos e idiossincráticos na paisagem que se achatam quando calculados em média. Em contraste, as capacidades de raciocínio, nas quais se baseiam muitos inputs diferentes, mantêm curvas consistentes e moderadas. Os pesquisadores indicam que “as direções que implementam mecanismos compartilhados usados por muitas entradas somam-se de forma coerente e permanecem em alta curvatura, em média”, descrevendo caminhos de raciocínio. A memorização, por outro lado, usa “direções nítidas idiossincráticas associadas a exemplos específicos” que parecem planas quando calculadas a média. A técnica foi testada em vários sistemas de IA, incluindo a família OLMo-2 do Allen Institute (versões de 7 bilhões e 1 bilhão de parâmetros) e transformadores de visão personalizados de 86 milhões de parâmetros (modelos ViT-Base) no ImageNet. Eles também validaram as descobertas em relação a métodos existentes, como BalancedSubnet. A remoção seletiva de componentes de baixa curvatura resultou na recuperação do conteúdo memorizado caindo de quase 100% para 3,4%. As tarefas de raciocínio lógico mantiveram de 95 a 106 por cento do desempenho da linha de base. As tarefas lógicas incluíram avaliação de expressão booleana, quebra-cabeças de dedução lógica, rastreamento de objetos, BoolQ para raciocínio sim/não, Winogrande para inferência de senso comum e OpenBookQA para questões científicas. As operações matemáticas e a recuperação de fatos em livro fechado, compartilhando caminhos com memorização, caíram para 66 a 86 por cento de desempenho após a edição. A aritmética mostrou-se particularmente frágil, com cálculos falhando mesmo com cadeias de raciocínio idênticas após a remoção dos componentes de baixa curvatura. A equipe explicou: “Os próprios problemas aritméticos são memorizados na escala 7B ou porque exigem instruções usadas de maneira restrita para fazer cálculos precisos”. A resposta aberta a perguntas, com base no contexto fornecido, manteve o desempenho quase total. A separação dos mecanismos variou por tipo de informação; fatos comuns, como capitais de países, apresentaram alterações mínimas após a edição, enquanto fatos raros, como CEOs de empresas, caíram 78%, sugerindo alocação diferencial de recursos neurais com base na frequência de informações no treinamento. A técnica K-FAC superou os métodos existentes de remoção de memorização, alcançando 16,1% de memorização em cotações históricas não vistas, versus 60% para BalancedSubnet. Os transformadores de visão mostraram padrões semelhantes, com a remoção dos caminhos de memorização restaurando 66,5% de precisão em imagens anteriormente rotuladas incorretamente. Os pesquisadores reconhecem as limitações; memórias removidas podem retornar com treinamento adicional, já que os métodos atuais de desaprendizado suprimem principalmente informações. A razão para a fragilidade da matemática após a remoção da memorização não é clara, assim como se certas capacidades complexas são erroneamente identificadas como memorização. Além disso, as ferramentas matemáticas para medir a “paisagem” do modelo podem não ser confiáveis em extremos.

Crédito da imagem em destaque

Tags: Goodfire.ai llm

Nova pesquisa mostra que a lógica da IA sobrevive mesmo quando sua memória é apagada

Related Posts

Startup revela modelo de IA construído em osciladores e pode reduzir o uso de energia em 1.000 vezes

Transformação digital dos processos de compras: Construindo um sistema de compras corporativas baseado no exemplo de um projeto de holding industrial internacional

Nova teoria da matéria escura propõe dois tipos de partículas

Pesquisadores da Penn State constroem chip de computação solar sem bateria

A falha do Google Dialogflow CX permite que pesquisadores criem agentes desonestos

Pesquisa antrópica introduz GRAM para isolar conhecimentos perigosos de IA

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Nova pesquisa mostra que a lógica da IA ​​sobrevive mesmo quando sua memória é apagada

Related Posts

Startup revela modelo de IA construído em osciladores e pode reduzir o uso de energia em 1.000 vezes

Transformação digital dos processos de compras: Construindo um sistema de compras corporativas baseado no exemplo de um projeto de holding industrial internacional

Nova teoria da matéria escura propõe dois tipos de partículas

Pesquisadores da Penn State constroem chip de computação solar sem bateria

A falha do Google Dialogflow CX permite que pesquisadores criem agentes desonestos

Pesquisa antrópica introduz GRAM para isolar conhecimentos perigosos de IA

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Follow Us

Nova pesquisa mostra que a lógica da IA sobrevive mesmo quando sua memória é apagada