Dataconomy PT
Subscribe
No Result
View All Result
Dataconomy PT
Subscribe
No Result
View All Result
Dataconomy PT
No Result
View All Result

Pesquisa Bloomberg: Rag LLMs pode ser menos seguro do que você pensa

byKerem Gülen
28 Abril 2025
in Research
Home Research
Share on FacebookShare on Twitter

A geração de recuperação, ou trava, foi aclamada como uma maneira de tornar os grandes modelos de idiomas mais confiáveis, fundamentando suas respostas em documentos reais. A lógica soa hermética: forneça um modelo de conhecimento com curadoria para extrair, em vez de confiar apenas em seus próprios parâmetros e você reduz alucinações, informações erradas e saídas de risco. Mas um novo estudar sugere que o oposto pode estar acontecendo. Mesmo os modelos mais seguros, emparelhados com documentos seguros, tornaram -se visivelmente mais perigosos ao usar o RAG.

Pesquisadores da Bloomberg AI, da Universidade de Maryland e Johns Hopkins conduziram uma das primeiras análises em larga escala da segurança dos sistemas de trapos. Suas descobertas aumentam as suposições comuns que muitos desenvolvedores e usuários de IA mantêm sobre como a recuperação afeta o comportamento do modelo. Nos onze LLMs populares, Rag frequentemente introduzia novas vulnerabilidades, criando respostas inseguras que não existiam antes.

A recuperação não protegeu os modelos

Em um teste de mais de 5.000 instruções prejudiciais, oito dos onze modelos mostraram uma taxa mais alta de respostas inseguras quando o RAG foi ativado. O comportamento seguro no ambiente não-RAG não previu um comportamento seguro no RAG. O estudo forneceu um exemplo concreto: LLAMA-3-8B, um modelo que produziu apenas saídas inseguras 0,3 % do tempo em uma configuração padrão, viu esse número subir para 9,2 % quando o RAG foi usado.

Não apenas a porcentagem geral de respostas inseguras subiu, mas os modelos também expandiram suas vulnerabilidades em novas categorias de risco. Anteriormente, continham fraquezas em áreas como a prática não autorizada da lei ou orientação de malware espalhada em categorias mais amplas, incluindo conteúdo adulto, desinformação e campanha política. Rag, em vez de restringir o risco, ampliou -o.

Três razões pelas quais Rag pode sair pela culatra

Os pesquisadores rastrearam esse perigo inesperado a três fatores interligados:

  • Linha de base de segurança LLM: Modelos que eram menos seguros para começar sofreram a maior deterioração em ambientes de pano.
  • Segurança do documento: Mesmo quando os documentos recuperados foram classificados como seguros, os modelos ainda geravam conteúdo prejudicial.
  • Desempenho da tarefa de trapo: A maneira como um modelo tratou da combinação de documentos externos com o conhecimento interno influenciou profundamente os resultados.

O que surgiu é que simplesmente emparelhar um modelo seguro com documentos seguros não é garantia de respostas seguras. Os mecanismos que tornam o RAG atraente, como síntese de contexto e resposta guiada por documentos, também abre novos caminhos para uso indevido e má interpretação.

Dois comportamentos principais se destacaram quando os pesquisadores analisaram saídas inseguras decorrentes de documentos seguros. Primeiro, os modelos geralmente reaprominam informações inofensivas em conselhos perigosos. Por exemplo, uma entrada da Wikipedia sobre como a polícia usa rastreadores de GPS se tornou, nas mãos de um modelo, um tutorial para criminosos sobre a captura.

Segundo, mesmo quando instruído a confiar apenas em documentos, os modelos às vezes misturados em conhecimento interno. Essa mistura de memória e recuperação prejudicou o trapo de salvaguardas deveria fornecer. Mesmo quando os documentos externos eram neutros ou benignos, o conhecimento interno inseguro surgiu de maneiras que o ajuste fino havia suprimido anteriormente no ambiente não-RAG.

Adicionar mais documentos recuperados apenas piorou o problema. As experiências mostraram que aumentar o número de documentos de contexto tornou a probabilidade de LLMs responder perguntas inseguras, não menos. Um único documento seguro foi suficiente para começar a alterar o perfil de risco de um modelo.

Nem todos os modelos lidaram com o pano igualmente. Claude 3,5 sonetospor exemplo, permaneceu notavelmente resiliente, mostrando taxas de resposta insegura muito baixas, mesmo sob pressão de pano. Gemma 7b parecia seguro à primeira vista, mas uma análise mais profunda revelou que muitas vezes simplesmente se recusava a responder perguntas. As habilidades de extração e resumo de baixa extração mascaram vulnerabilidades em vez de consertá -las.

Em geral, os modelos que tiveram um desempenho melhor em tarefas genuínas de pano como resumo e extração eram paradoxalmente mais vulneráveis. Sua capacidade de sintetizar a partir de documentos também tornou mais fácil para eles apropriar fatos inofensivos em conteúdo inseguro quando o tópico era sensível.

As rachaduras de segurança aumentaram ainda mais quando os pesquisadores testaram os métodos existentes de equipes vermelhas projetadas para o Jailbreak LLMs. Técnicas como GCG e Autodan, que funcionam bem para modelos padrão, falharam em transferir seu sucesso ao segmentar configurações de trapos.

Um dos maiores desafios foi que os avisos adversários otimizados para um modelo não RAG perderam eficácia quando os documentos foram injetados no contexto. Mesmo os avisos adversários de reciclagem especificamente para RAG melhoraram apenas os resultados. Alterar os documentos recuperados cada vez que criou instabilidade, dificultando o sucesso das estratégias tradicionais de jailbreak.

Essa lacuna mostra que as ferramentas e avaliações de segurança da IA ​​criadas para modelos básicas não são suficientes. Serão necessários times vermelhas específicos de trava dedicados se os desenvolvedores desejarem implantar sistemas aprimorados de recuperação com segurança em escala.

Recuperação não é um cobertor de segurança

À medida que as empresas se movem cada vez mais em direção a arquiteturas de trapos para Modelo de linguagem grande As aplicações, as descobertas deste estudo terminam como um aviso gritante. A recuperação ajuda a reduzir as alucinações e melhorar a factualidade, mas não se traduz automaticamente em saídas mais seguras. Pior, introduz novas camadas de risco que as intervenções tradicionais de segurança não foram projetadas para lidar.

O take -away é claro: os desenvolvedores da LLM não podem assumir que o parafuso na recuperação tornará os modelos mais seguros. O ajuste fino deve ser explicitamente adaptado para os fluxos de trabalho de pano. A equipe de vermelho deve explicar o dinamismo de contexto. O monitoramento deve tratar a própria camada de recuperação como um possível vetor de ataque, não apenas uma entrada passiva.

Sem defesas específicas de pano, as próprias técnicas projetadas para os modelos de linguagem fundamental na verdade poderiam criar novas vulnerabilidades. Se o setor não abordar essas lacunas rapidamente, a próxima geração de implantações de LLM poderá herdar riscos mais profundos disfarçados sob o rótulo reconfortante da recuperação.


Crédito da imagem em destaque

Tags: llmPano

Related Posts

As ferramentas de pesquisa de IA podem estar criando mais problemas do que resolvem

As ferramentas de pesquisa de IA podem estar criando mais problemas do que resolvem

14 Maio 2025
O seu parceiro de IA generativo super útil está tornando seu trabalho entediante?

O seu parceiro de IA generativo super útil está tornando seu trabalho entediante?

14 Maio 2025
Adele da Microsoft quer dar um perfil cognitivo à sua IA

Adele da Microsoft quer dar um perfil cognitivo à sua IA

14 Maio 2025
O artigo de pesquisa da Apple revela Matrix3D para geração de conteúdo 3D

O artigo de pesquisa da Apple revela Matrix3D para geração de conteúdo 3D

14 Maio 2025
Pesquisa: o padrão -ouro para avaliação de Genai

Pesquisa: o padrão -ouro para avaliação de Genai

12 Maio 2025
Ai finalmente resolve o quebra -cabeça mais difícil da biologia

Ai finalmente resolve o quebra -cabeça mais difícil da biologia

6 Maio 2025

Recent Posts

  • O impacto dos tecidos inteligentes no desempenho das roupas táticas
  • Databricks Aposta grande no servidor sem servidor com sua aquisição de neon de US $ 1 bilhão
  • AlphaEvolve: Como a nova IA do Google visa a verdade com a autocorreção
  • Tiktok está implementando textos alt gerados pela IA para melhor acessibilidade
  • Trump força a Apple a repensar sua estratégia de iPhone da Índia

Recent Comments

Nenhum comentário para mostrar.
Dataconomy PT

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.