Em seu Relatório de Ameaças Globais de 2026, a CrowdStrike relatou ataques de injeção imediata em mais de 90 organizações durante 2025. Os prompts injetados geraram comandos que roubaram credenciais e criptomoedas, marcando uma mudança significativa, já que esses prompts agora funcionam como malware.
O relatório documentou um aumento de 89% ano após ano nas operações adversárias habilitadas por IA. Além disso, 82% das invasões não envolveram códigos maliciosos tradicionais, ocorrendo à medida que as empresas faziam a transição para o uso de agentes, copilotos e automações de navegador que acessam e-mails, códigos, pagamentos e compartilhamentos de arquivos.
A injeção imediata manteve sua classificação superior como LLM01 no OWASP Top 10 para aplicações de modelos de linguagem de grande porte por duas edições consecutivas. A OWASP destacou que os modelos de linguagem são incapazes de distinguir com segurança as instruções do desenvolvedor de textos não confiáveis, transformando o que antes era uma curiosidade de pesquisa em uma vulnerabilidade operacional.
A injeção direta de prompt ocorre quando um usuário digita instruções para substituir um prompt do sistema, enquanto a injeção indireta de prompt ocorre quando um invasor incorpora instruções no conteúdo que o modelo lê posteriormente, como e-mails ou documentos. O usuário não vê a carga e o agente executa os comandos maliciosos sem interação.
Dois incidentes notáveis esclarecem a gravidade dessas vulnerabilidades. Em agosto de 2024, o PromptArmor revelou que um invasor do Slack AI poderia exfiltrar dados de canais privados plantando instruções em canais públicos ou enviando arquivos. No ano seguinte, a Aim Security relatou o EchoLeak (CVE-2025-32711), onde um e-mail elaborado direcionava o Microsoft 365 Copilot para recuperar arquivos internos e enviá-los para um servidor controlado pelo invasor, alcançando uma pontuação CVSS de 9,3. Ambas as vulnerabilidades foram corrigidas, mas a classe de ataques permanece sem solução.
A área superficial de vulnerabilidade se expandiu para incluir uma pilha de agentes mais ampla, onde os agentes que executam diversas tarefas tratam seu contexto como autoritativo. Este desenvolvimento significa que a memória do agente de longo prazo pode reter e executar instruções maliciosas repetidamente.
A OpenAI reconheceu em dezembro de 2025 que é improvável que a injeção imediata seja totalmente resolvida, muitas vezes comparando-a à engenharia social. O cartão do sistema Claude Opus 4.6 da Anthropic indicou uma taxa de sucesso de 17,8% para uma única tentativa de injeção imediata, aumentando para 78,6% em 200 tentativas sem salvaguardas em vigor. O Google relatou uma taxa de sucesso de 53,6% para injeção imediata em sua implantação do Gemini.
Em dezembro de 2025, o Gartner aconselhou os CISOs a bloquear todos os navegadores de IA, citando injeção indireta imediata e outros riscos associados a controles insuficientes. A Cyberhaven informou que 27,7% das organizações tinham pelo menos um usuário com a ferramenta de IA bloqueada Atlas instalada, um alerta repetido pelo Centro Nacional de Segurança Cibernética do Reino Unido e pelo BSI da Alemanha.
As limitações das defesas existentes contra a injeção imediata decorrem dos canais de texto compartilhados nos modelos de linguagem. A validação de entrada, a filtragem de saída e outros métodos de detecção apresentam dificuldades devido à incapacidade inerente de separar comandos autorizados de conteúdo não confiável dentro do modelo.
Uma conclusão separada indicou que 65,3% das organizações não possuem defesas dedicadas contra a injeção imediata, contando, em vez disso, com medidas fornecidas pelos fornecedores e formação em políticas. Os controles eficazes devem incluir a limitação da autoridade de cada agente, a exigência de aprovação humana para ações críticas, a marcação de fontes de recuperação com base na sensibilidade e a implementação de práticas de auditoria.
À medida que as organizações consideram implantações de IA, as equipes de segurança são incentivadas a perguntar aos fornecedores sobre capacidades de detecção, taxas de sucesso contra injeções imediatas, adesão às recomendações do OWASP e a capacidade de registrar ações exatas do agente. Dadas as vulnerabilidades, é fundamental que as empresas assumam que os modelos podem ocasionalmente seguir instruções injetadas, necessitando de controlos externos robustos.





