Pesquisadores de segurança da Radware demonstraram como eles enganaram o ChatGPT da OpenAI para extrair dados confidenciais da caixa de entrada do Gmail de um usuário usando uma vulnerabilidade que eles chamam de “vazamento de sombra”. O ataque, que foi revelado nesta semana, usou uma técnica chamada injeção rápida para manipular um agente de IA chamado Deep Research que recebeu acesso aos e -mails do usuário. Todo o ataque ocorreu na infraestrutura em nuvem do Openai, ignorando as defesas tradicionais de segurança cibernética. O OpenAI remendou a vulnerabilidade depois que a Radware o relatou em junho.
Como funciona o ataque de vazamento das sombras
O experimento direcionou os agentes de IA, projetados para executar tarefas autonomamente em nome de um usuário, como acessar contas pessoais como email. Nesse caso, o profundo agente de pesquisa, incorporado ao ChatGPT, recebeu permissão para interagir com a conta do Gmail do usuário. Os pesquisadores criaram um e -mail contendo instruções maliciosas escondidas como texto branco invisível em um fundo branco. Este e -mail foi enviado para a caixa de entrada do Gmail do alvo. Os comandos ocultos permaneceram inativos até o usuário ativar o agente de pesquisa profundo para uma tarefa de rotina. Quando o agente digitalizou a caixa de entrada, ele encontrou a injeção rápida e seguiu as instruções do atacante em vez da do usuário. O agente passou a pesquisar na caixa de entrada informações confidenciais, como e-mails relacionados à RH e detalhes pessoais, e enviou esses dados aos pesquisadores sem o conhecimento do usuário. Os pesquisadores descreveram o processo de desenvolvimento do ataque como “uma montanha -russa de tentativas fracassadas, obstáculos frustrantes e, finalmente, um avanço”.
Um ataque baseado em nuvem que ignora a segurança tradicional
Um aspecto essencial do ataque de vazamento de sombras é que ele opera inteiramente na infraestrutura em nuvem do OpenAI, não no dispositivo local do usuário. Isso o torna indetectável por ferramentas convencionais de segurança cibernética, como o software antivírus, que monitoram o computador ou o telefone de um usuário quanto a atividades maliciosas. Ao aproveitar a infraestrutura da própria IA, o ataque pode prosseguir sem deixar nenhum rastro no final do usuário.
Potencial para uma ampla gama de ataques
A prova de conceito da Radware também identificou riscos potenciais para outros serviços que se integram ao profundo agente de pesquisa. Os pesquisadores afirmaram que a mesma técnica de injeção imediata poderia ser usada para direcionar conexões para Outlook, Github, Google Drive e Dropbox.
“A mesma técnica pode ser aplicada a esses conectores adicionais para exfiltrar dados comerciais altamente sensíveis, como contratos, anotações ou registros do cliente”.
A injeção imediata é uma vulnerabilidade conhecida que tem sido usada em vários ataques do mundo real, desde a manipulação de revisões acadêmicas de colegas até o controle de dispositivos domésticos inteligentes. Desde então, o OpenAI corrigiu a falha específica que permitiu o ataque de vazamento de sombras, mas a pesquisa destaca os desafios de segurança em andamento representados pela crescente autonomia dos agentes da IA.