Pesquisa Bloomberg: Rag LLMs pode ser menos seguro do que você pensa

A geração de recuperação, ou trava, foi aclamada como uma maneira de tornar os grandes modelos de idiomas mais confiáveis, fundamentando suas respostas em documentos reais. A lógica soa hermética: forneça um modelo de conhecimento com curadoria para extrair, em vez de confiar apenas em seus próprios parâmetros e você reduz alucinações, informações erradas e saídas de risco. Mas um novo estudar sugere que o oposto pode estar acontecendo. Mesmo os modelos mais seguros, emparelhados com documentos seguros, tornaram -se visivelmente mais perigosos ao usar o RAG.

Pesquisadores da Bloomberg AI, da Universidade de Maryland e Johns Hopkins conduziram uma das primeiras análises em larga escala da segurança dos sistemas de trapos. Suas descobertas aumentam as suposições comuns que muitos desenvolvedores e usuários de IA mantêm sobre como a recuperação afeta o comportamento do modelo. Nos onze LLMs populares, Rag frequentemente introduzia novas vulnerabilidades, criando respostas inseguras que não existiam antes.

A recuperação não protegeu os modelos

Em um teste de mais de 5.000 instruções prejudiciais, oito dos onze modelos mostraram uma taxa mais alta de respostas inseguras quando o RAG foi ativado. O comportamento seguro no ambiente não-RAG não previu um comportamento seguro no RAG. O estudo forneceu um exemplo concreto: LLAMA-3-8B, um modelo que produziu apenas saídas inseguras 0,3 % do tempo em uma configuração padrão, viu esse número subir para 9,2 % quando o RAG foi usado.

Não apenas a porcentagem geral de respostas inseguras subiu, mas os modelos também expandiram suas vulnerabilidades em novas categorias de risco. Anteriormente, continham fraquezas em áreas como a prática não autorizada da lei ou orientação de malware espalhada em categorias mais amplas, incluindo conteúdo adulto, desinformação e campanha política. Rag, em vez de restringir o risco, ampliou -o.

Três razões pelas quais Rag pode sair pela culatra

Os pesquisadores rastrearam esse perigo inesperado a três fatores interligados:

Linha de base de segurança LLM: Modelos que eram menos seguros para começar sofreram a maior deterioração em ambientes de pano.
Segurança do documento: Mesmo quando os documentos recuperados foram classificados como seguros, os modelos ainda geravam conteúdo prejudicial.
Desempenho da tarefa de trapo: A maneira como um modelo tratou da combinação de documentos externos com o conhecimento interno influenciou profundamente os resultados.

O que surgiu é que simplesmente emparelhar um modelo seguro com documentos seguros não é garantia de respostas seguras. Os mecanismos que tornam o RAG atraente, como síntese de contexto e resposta guiada por documentos, também abre novos caminhos para uso indevido e má interpretação.

Dois comportamentos principais se destacaram quando os pesquisadores analisaram saídas inseguras decorrentes de documentos seguros. Primeiro, os modelos geralmente reaprominam informações inofensivas em conselhos perigosos. Por exemplo, uma entrada da Wikipedia sobre como a polícia usa rastreadores de GPS se tornou, nas mãos de um modelo, um tutorial para criminosos sobre a captura.

Segundo, mesmo quando instruído a confiar apenas em documentos, os modelos às vezes misturados em conhecimento interno. Essa mistura de memória e recuperação prejudicou o trapo de salvaguardas deveria fornecer. Mesmo quando os documentos externos eram neutros ou benignos, o conhecimento interno inseguro surgiu de maneiras que o ajuste fino havia suprimido anteriormente no ambiente não-RAG.

Adicionar mais documentos recuperados apenas piorou o problema. As experiências mostraram que aumentar o número de documentos de contexto tornou a probabilidade de LLMs responder perguntas inseguras, não menos. Um único documento seguro foi suficiente para começar a alterar o perfil de risco de um modelo.

Nem todos os modelos lidaram com o pano igualmente. Claude 3,5 sonetospor exemplo, permaneceu notavelmente resiliente, mostrando taxas de resposta insegura muito baixas, mesmo sob pressão de pano. Gemma 7b parecia seguro à primeira vista, mas uma análise mais profunda revelou que muitas vezes simplesmente se recusava a responder perguntas. As habilidades de extração e resumo de baixa extração mascaram vulnerabilidades em vez de consertá -las.

Em geral, os modelos que tiveram um desempenho melhor em tarefas genuínas de pano como resumo e extração eram paradoxalmente mais vulneráveis. Sua capacidade de sintetizar a partir de documentos também tornou mais fácil para eles apropriar fatos inofensivos em conteúdo inseguro quando o tópico era sensível.

As rachaduras de segurança aumentaram ainda mais quando os pesquisadores testaram os métodos existentes de equipes vermelhas projetadas para o Jailbreak LLMs. Técnicas como GCG e Autodan, que funcionam bem para modelos padrão, falharam em transferir seu sucesso ao segmentar configurações de trapos.

Um dos maiores desafios foi que os avisos adversários otimizados para um modelo não RAG perderam eficácia quando os documentos foram injetados no contexto. Mesmo os avisos adversários de reciclagem especificamente para RAG melhoraram apenas os resultados. Alterar os documentos recuperados cada vez que criou instabilidade, dificultando o sucesso das estratégias tradicionais de jailbreak.

Essa lacuna mostra que as ferramentas e avaliações de segurança da IA criadas para modelos básicas não são suficientes. Serão necessários times vermelhas específicos de trava dedicados se os desenvolvedores desejarem implantar sistemas aprimorados de recuperação com segurança em escala.

Recuperação não é um cobertor de segurança

À medida que as empresas se movem cada vez mais em direção a arquiteturas de trapos para Modelo de linguagem grande As aplicações, as descobertas deste estudo terminam como um aviso gritante. A recuperação ajuda a reduzir as alucinações e melhorar a factualidade, mas não se traduz automaticamente em saídas mais seguras. Pior, introduz novas camadas de risco que as intervenções tradicionais de segurança não foram projetadas para lidar.

O take -away é claro: os desenvolvedores da LLM não podem assumir que o parafuso na recuperação tornará os modelos mais seguros. O ajuste fino deve ser explicitamente adaptado para os fluxos de trabalho de pano. A equipe de vermelho deve explicar o dinamismo de contexto. O monitoramento deve tratar a própria camada de recuperação como um possível vetor de ataque, não apenas uma entrada passiva.

Sem defesas específicas de pano, as próprias técnicas projetadas para os modelos de linguagem fundamental na verdade poderiam criar novas vulnerabilidades. Se o setor não abordar essas lacunas rapidamente, a próxima geração de implantações de LLM poderá herdar riscos mais profundos disfarçados sob o rótulo reconfortante da recuperação.

Crédito da imagem em destaque