O pesquisador de segurança Johann Rehberger expôs uma vulnerabilidade séria no ChatGPT que poderia permitir que invasores registrassem dados incorretos junto com instruções perniciosas nas configurações de um usuário para memória de longo prazo. Após relatar a falha à OpenAI, Rehberger percebeu que a empresa inicialmente a descartou como uma questão de segurança em vez de uma preocupação de segurança. Após Rehberger mostrar uma exploração de prova de conceito (PoC) que usou a vulnerabilidade para exfiltrar permanentemente todas as entradas do usuário, os engenheiros da OpenAI tomaram conhecimento e lançaram uma correção parcial no início deste mês.
Explorando a memória de longo prazo
De acordo com Arstechnica, Rehberger encontrado que você pode alterar a memória de longo prazo do ChatGPT usando injeção indireta de prompt. Este método permite que invasores incorporem memórias ou direções falsas em material não confiável, como e-mails enviados, entradas de blog ou documentos.
O PoC de Rehberger demonstrou que enganar o ChatGPT para abrir um link malicioso da web permitiu ao invasor controle total sobre a captura e o despacho de todas as entradas subsequentes do usuário e respostas do ChatGPT para um servidor que ele controlava. Rehberger demonstrou como o exploit pode fazer com que o ChatGPT mantenha informações falsas, incluindo acreditar que um usuário tinha 102 anos e vivia na Matrix, afetando todas as discussões futuras.
Resposta da OpenAI e riscos contínuos
A OpenAI respondeu inicialmente ao relatório de Rehberger fechando-o, classificando a vulnerabilidade como uma questão de segurança em vez de um problema de segurança. Após compartilhar o PoC, a empresa lançou um patch para evitar que o exploit funcionasse como um vetor de exfiltração. Mesmo assim, Rehberger destacou que a questão fundamental das injeções rápidas continua sem solução. Enquanto a estratégia explícita para roubo de dados foi confrontada, atores manipuladores ainda podem influenciar o instrumento de memória para incorporar dados fabricados nas configurações de memória de longo prazo de um usuário.
Rehberger observou na demonstração do vídeo, “O que é particularmente intrigante é que esse exploit persiste na memória. A injeção de prompt integrou com sucesso a memória no armazenamento de longo prazo do ChatGPT, e mesmo ao iniciar um novo chat, ele não para de exfiltrar dados.
Graças à API lançada no ano passado pela OpenAI, esse método de ataque específico não é viável por meio da interface web do ChatGPT.
Como se proteger de explorações de memória do ChatGPT (ou LLM)?
Aqueles que usam Mestrado em Direito que desejam manter suas trocas com o ChatGPT seguras são encorajadas a procurar atualizações no sistema de memória durante suas sessões. Os usuários finais devem verificar e atender repetidamente às memórias arquivadas em busca de conteúdo suspeito. Os usuários têm orientação da OpenAI sobre como gerenciar essas configurações de memória e podem decidir adicionalmente desligar a função de memória para eliminar esses possíveis riscos.
Devido aos recursos de memória do ChatGPT, os usuários podem ajudar a proteger seus dados de possíveis explorações, mantendo-se em guarda e tomando medidas preventivas.