Um estudo de 2025 da Universidade de Oxford revelou uma vulnerabilidade de segurança em agentes de IA, que deve ser amplamente utilizada dentro de dois anos. Ao contrário dos chatbots, esses agentes podem tomar ações diretas no computador de um usuário, como abrições de abas ou preencher formulários. A pesquisa mostra como os atacantes podem incorporar comandos invisíveis nas imagens para assumir o controle desses agentes.
Como funciona o ataque baseado em imagem
Os pesquisadores demonstraram que, fazendo mudanças sutis nos pixels em uma imagem – como um papel de parede de mesa, um anúncio on -line ou uma postagem de mídia social – eles poderiam incorporar comandos maliciosos. Embora essas alterações sejam invisíveis ao olho humano, um agente de IA pode interpretá -las como instruções. O estudo usou um papel de parede “Taylor Swift” como exemplo. Uma única imagem manipulada pode comandar um agente de IA em execução para retweetar a imagem nas mídias sociais e enviar as senhas do usuário para um invasor. O ataque afeta apenas os usuários que têm um agente de IA ativo em seu computador.
Por que os papéis de parede são um vetor de ataque eficaz?
Os agentes da IA trabalham repetidamente, tirando capturas de tela da área de trabalho do usuário para entender o que está na tela e identificar elementos para interagir. Como um papel de parede para desktop está sempre presente nessas capturas de tela, ele serve como um método de entrega persistente para um comando malicioso. Os pesquisadores descobriram que esses comandos ocultos também são resistentes a mudanças comuns de imagem, como redimensionamento e compactação. Os modelos de IA de código aberto são especialmente vulneráveis porque os invasores podem estudar seu código para aprender como processam informações visuais. Isso lhes permite projetar padrões de pixel que o modelo interpretará com segurança como um comando. A vulnerabilidade permite que os atacantes unam vários comandos. Uma imagem maliciosa inicial pode instruir o agente a navegar para um site, que pode hospedar uma segunda imagem maliciosa. Essa segunda imagem pode acionar outra ação, criando uma sequência que permite ataques mais complexos.
O que pode ser feito?
Os pesquisadores esperam que suas descobertas pressionem os desenvolvedores a construir medidas de segurança antes que os agentes da IA se espalhem. As defesas em potencial incluem modelos de reciclagem para ignorar esses tipos de imagens manipuladas ou adicionar camadas de segurança que impedem que os agentes atuem no conteúdo na tela.
As pessoas estão correndo para implantar a tecnologia antes que sua segurança seja totalmente compreendida.
Yarin Gal, professor de Oxford e co-autor do estudo, expressou preocupação de que a rápida implantação da tecnologia de agentes esteja superando a pesquisa de segurança. Os autores afirmaram que mesmo empresas com modelos de código fechado não são imunes, pois o ataque explora comportamentos fundamentais do modelo que não podem ser protegidos simplesmente mantendo o código privado.





