Dataconomy PT
Subscribe
No Result
View All Result
Dataconomy PT
Subscribe
No Result
View All Result
Dataconomy PT
No Result
View All Result

Os novos K2 dos Emirados Árabes Unidos pensam que a IA Model Jailbroken Horas após a liberação por meio de troncos de raciocínio transparentes

byEmre Çıtak
12 Setembro 2025
in Cibersegurança, Inteligência Artificial
Home Notícias Cibersegurança
Share on FacebookShare on Twitter
Google Preferred Source

Em 9 de setembro de 2025, um novo modelo de IA de 32 bilhões de parâmetros chamado K2 Think foi lançado pelas empresas da Universidade de Inteligência Artificial Mohamed Bin Zayed (MBZUAI) e G42. O modelo foi projetado para o desempenho avançado e reivindicações comparáveis ​​a modelos maiores, como o O3 O3 e o Deepseek, R1. Um recurso essencial do K2 Think é sua transparência, que permite aos usuários visualizar o raciocínio passo a passo do modelo em texto simples. Horas após seu lançamento, o pesquisador Alex Polyakov, de Adversa AI, descobriu uma vulnerabilidade de segurança que ele chamou de “Prompt parcial vazando. “Embora sua tentativa inicial de jailbreak, o modelo tenha sido bloqueado, os troncos transparentes de raciocínio mostraram exatamente por que a solicitação foi sinalizada. Usando essas informações, Polyakov refinou sua abordagem sobre várias tentativas e ignorou com sucesso as salvaguardas do K2 Think, obrigando o modelo a fornecer instruções para atividades ilegais, como a criação de malware.

A transparência do modelo cria um desafio de segurança

O recurso de transparência do K2 Think, destinado a criar confiança do usuário, também expõe sua lógica interna, criando uma nova superfície de ataque. Quando o modelo rejeita um prompt malicioso, seus logs podem revelar a regra de segurança específica que foi acionada. Um invasor pode usar esse feedback para ajustar seus avisos e ignorar sistematicamente as camadas de segurança. Este incidente destaca a necessidade de os fornecedores de IA equilibrarem a transparência com a segurança robusta, aplicando o mesmo rigor ao raciocínio de toras que fazem para modelar saídas.

K2 Capacidades e design de Think

Apesar de seu tamanho relativamente pequeno de 32 bilhões de parâmetros, o K2 Think é projetado para combinar o raciocínio, matemática e desempenho de codificação de modelos muito maiores. Ele foi projetado para a solução de problemas complexa e em várias etapas, e seus pesos de parâmetros e dados de treinamento são visíveis publicamente. A capacidade do modelo de exibir seu processo de raciocínio em texto simples e não filtrado o distingue de outros modelos em que esses logs são frequentemente resumidos ou ocultos do usuário.

Como funciona a vulnerabilidade do jailbreak

Polyakov demonstrou que, embora as tentativas simples de jailbreak sejam bloqueadas, as explicações detalhadas do sistema sobre por que uma solicitação é negada pode ser explorada. Ao analisar esses logs, ele modificou iterativamente seus avisos para contornar as regras de segurança uma por uma. Esse processo mostrou que, se as regras do Guardrail forem reveladas, um invasor persistente poderá ignorar todas as restrições e instruir o modelo a gerar conteúdo nocivo, como o código de malware.

Implicações da indústria para a segurança da IA

O K2 Pense em vulnerabilidade mais uma vez nos mostra toda a necessidade crítica de desenvolvedores de IA tratar o processo de raciocínio de um modelo como um risco potencial de segurança. Os pesquisadores sugerem várias estratégias de mitigação para proteger modelos transparentes:

  • Filtre informações de regra sensíveis a partir de logs voltados para o público.
  • Implemente as regras de segurança do “Honeypot” para enganar os atacantes.
  • Aplique limites de taxa para bloquear solicitações maliciosas repetidas de um único usuário.

Polyakov vê o incidente como uma importante oportunidade de aprendizado para a indústria, enfatizando que o raciocínio é um recurso valioso e uma superfície crítica de segurança. Ao abordar essa vulnerabilidade, empresas como o G42 podem ajudar a estabelecer as melhores práticas para equilibrar a transparência e a proteção em futuros sistemas de IA.


Crédito da imagem em destaque

Tags: Apresentoufuga de presosK2 Pense no modelo AISegurança

Related Posts

Anthropic convida mais 150 organizações para o Projeto Glasswing

Anthropic convida mais 150 organizações para o Projeto Glasswing

3 Junho 2026
Microsoft revela Projeto Solara para um futuro com agentes em primeiro lugar

Microsoft revela Projeto Solara para um futuro com agentes em primeiro lugar

3 Junho 2026
O Google permitirá que sites optem por não receber resultados de pesquisa de IA

O Google permitirá que sites optem por não receber resultados de pesquisa de IA

3 Junho 2026
OpenAI expande Codex com plug-ins empresariais e novo recurso Sites

OpenAI expande Codex com plug-ins empresariais e novo recurso Sites

3 Junho 2026
Meta corrige falha de IA que permitiu o controle de contas do Instagram

Meta corrige falha de IA que permitiu o controle de contas do Instagram

2 Junho 2026
Serviço de cheat GTA V Atlas Menu hackeado, expondo 64.000 contas

Serviço de cheat GTA V Atlas Menu hackeado, expondo 64.000 contas

2 Junho 2026

Recent Posts

  • As regras de desativação da pesquisa de IA do Google estimulam o lançamento do navegador Enviromates
  • Sony revela God of War: Laufey para PS5
  • Pesquisadores desbloqueiam aprimoramento de 20 vezes em experimentos com laser ultrarrápido
  • Microsoft lança Surface RTX Spark Dev Box para cargas de trabalho de IA
  • Os novos chips Core Ultra da Intel estão supostamente em falta

Recent Comments

Nenhum comentário para mostrar.
Dataconomy PT

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies to improve your experience. You can choose to accept or reject them. Visit our Privacy Policy.