Em 9 de setembro de 2025, um novo modelo de IA de 32 bilhões de parâmetros chamado K2 Think foi lançado pelas empresas da Universidade de Inteligência Artificial Mohamed Bin Zayed (MBZUAI) e G42. O modelo foi projetado para o desempenho avançado e reivindicações comparáveis a modelos maiores, como o O3 O3 e o Deepseek, R1. Um recurso essencial do K2 Think é sua transparência, que permite aos usuários visualizar o raciocínio passo a passo do modelo em texto simples. Horas após seu lançamento, o pesquisador Alex Polyakov, de Adversa AI, descobriu uma vulnerabilidade de segurança que ele chamou de “Prompt parcial vazando. “Embora sua tentativa inicial de jailbreak, o modelo tenha sido bloqueado, os troncos transparentes de raciocínio mostraram exatamente por que a solicitação foi sinalizada. Usando essas informações, Polyakov refinou sua abordagem sobre várias tentativas e ignorou com sucesso as salvaguardas do K2 Think, obrigando o modelo a fornecer instruções para atividades ilegais, como a criação de malware.
A transparência do modelo cria um desafio de segurança
O recurso de transparência do K2 Think, destinado a criar confiança do usuário, também expõe sua lógica interna, criando uma nova superfície de ataque. Quando o modelo rejeita um prompt malicioso, seus logs podem revelar a regra de segurança específica que foi acionada. Um invasor pode usar esse feedback para ajustar seus avisos e ignorar sistematicamente as camadas de segurança. Este incidente destaca a necessidade de os fornecedores de IA equilibrarem a transparência com a segurança robusta, aplicando o mesmo rigor ao raciocínio de toras que fazem para modelar saídas.
K2 Capacidades e design de Think
Apesar de seu tamanho relativamente pequeno de 32 bilhões de parâmetros, o K2 Think é projetado para combinar o raciocínio, matemática e desempenho de codificação de modelos muito maiores. Ele foi projetado para a solução de problemas complexa e em várias etapas, e seus pesos de parâmetros e dados de treinamento são visíveis publicamente. A capacidade do modelo de exibir seu processo de raciocínio em texto simples e não filtrado o distingue de outros modelos em que esses logs são frequentemente resumidos ou ocultos do usuário.
Como funciona a vulnerabilidade do jailbreak
Polyakov demonstrou que, embora as tentativas simples de jailbreak sejam bloqueadas, as explicações detalhadas do sistema sobre por que uma solicitação é negada pode ser explorada. Ao analisar esses logs, ele modificou iterativamente seus avisos para contornar as regras de segurança uma por uma. Esse processo mostrou que, se as regras do Guardrail forem reveladas, um invasor persistente poderá ignorar todas as restrições e instruir o modelo a gerar conteúdo nocivo, como o código de malware.
Implicações da indústria para a segurança da IA
O K2 Pense em vulnerabilidade mais uma vez nos mostra toda a necessidade crítica de desenvolvedores de IA tratar o processo de raciocínio de um modelo como um risco potencial de segurança. Os pesquisadores sugerem várias estratégias de mitigação para proteger modelos transparentes:
- Filtre informações de regra sensíveis a partir de logs voltados para o público.
- Implemente as regras de segurança do “Honeypot” para enganar os atacantes.
- Aplique limites de taxa para bloquear solicitações maliciosas repetidas de um único usuário.
Polyakov vê o incidente como uma importante oportunidade de aprendizado para a indústria, enfatizando que o raciocínio é um recurso valioso e uma superfície crítica de segurança. Ao abordar essa vulnerabilidade, empresas como o G42 podem ajudar a estabelecer as melhores práticas para equilibrar a transparência e a proteção em futuros sistemas de IA.





