Dataconomy PT
Subscribe
No Result
View All Result
Dataconomy PT
Subscribe
No Result
View All Result
Dataconomy PT
No Result
View All Result

Os novos K2 dos Emirados Árabes Unidos pensam que a IA Model Jailbroken Horas após a liberação por meio de troncos de raciocínio transparentes

byEmre Çıtak
12 Setembro 2025
in Artificial Intelligence, Cybersecurity
Home Artificial Intelligence
Share on FacebookShare on Twitter

Em 9 de setembro de 2025, um novo modelo de IA de 32 bilhões de parâmetros chamado K2 Think foi lançado pelas empresas da Universidade de Inteligência Artificial Mohamed Bin Zayed (MBZUAI) e G42. O modelo foi projetado para o desempenho avançado e reivindicações comparáveis ​​a modelos maiores, como o O3 O3 e o Deepseek, R1. Um recurso essencial do K2 Think é sua transparência, que permite aos usuários visualizar o raciocínio passo a passo do modelo em texto simples. Horas após seu lançamento, o pesquisador Alex Polyakov, de Adversa AI, descobriu uma vulnerabilidade de segurança que ele chamou de “Prompt parcial vazando. “Embora sua tentativa inicial de jailbreak, o modelo tenha sido bloqueado, os troncos transparentes de raciocínio mostraram exatamente por que a solicitação foi sinalizada. Usando essas informações, Polyakov refinou sua abordagem sobre várias tentativas e ignorou com sucesso as salvaguardas do K2 Think, obrigando o modelo a fornecer instruções para atividades ilegais, como a criação de malware.

A transparência do modelo cria um desafio de segurança

O recurso de transparência do K2 Think, destinado a criar confiança do usuário, também expõe sua lógica interna, criando uma nova superfície de ataque. Quando o modelo rejeita um prompt malicioso, seus logs podem revelar a regra de segurança específica que foi acionada. Um invasor pode usar esse feedback para ajustar seus avisos e ignorar sistematicamente as camadas de segurança. Este incidente destaca a necessidade de os fornecedores de IA equilibrarem a transparência com a segurança robusta, aplicando o mesmo rigor ao raciocínio de toras que fazem para modelar saídas.

K2 Capacidades e design de Think

Apesar de seu tamanho relativamente pequeno de 32 bilhões de parâmetros, o K2 Think é projetado para combinar o raciocínio, matemática e desempenho de codificação de modelos muito maiores. Ele foi projetado para a solução de problemas complexa e em várias etapas, e seus pesos de parâmetros e dados de treinamento são visíveis publicamente. A capacidade do modelo de exibir seu processo de raciocínio em texto simples e não filtrado o distingue de outros modelos em que esses logs são frequentemente resumidos ou ocultos do usuário.

Como funciona a vulnerabilidade do jailbreak

Polyakov demonstrou que, embora as tentativas simples de jailbreak sejam bloqueadas, as explicações detalhadas do sistema sobre por que uma solicitação é negada pode ser explorada. Ao analisar esses logs, ele modificou iterativamente seus avisos para contornar as regras de segurança uma por uma. Esse processo mostrou que, se as regras do Guardrail forem reveladas, um invasor persistente poderá ignorar todas as restrições e instruir o modelo a gerar conteúdo nocivo, como o código de malware.

Implicações da indústria para a segurança da IA

O K2 Pense em vulnerabilidade mais uma vez nos mostra toda a necessidade crítica de desenvolvedores de IA tratar o processo de raciocínio de um modelo como um risco potencial de segurança. Os pesquisadores sugerem várias estratégias de mitigação para proteger modelos transparentes:

  • Filtre informações de regra sensíveis a partir de logs voltados para o público.
  • Implemente as regras de segurança do “Honeypot” para enganar os atacantes.
  • Aplique limites de taxa para bloquear solicitações maliciosas repetidas de um único usuário.

Polyakov vê o incidente como uma importante oportunidade de aprendizado para a indústria, enfatizando que o raciocínio é um recurso valioso e uma superfície crítica de segurança. Ao abordar essa vulnerabilidade, empresas como o G42 podem ajudar a estabelecer as melhores práticas para equilibrar a transparência e a proteção em futuros sistemas de IA.


Crédito da imagem em destaque

Tags: Apresentoufuga de presosK2 Pense no modelo AISegurança

Related Posts

Samsung Bixby ganha poderes de pesquisa Perplexity AI em nova atualização

Samsung Bixby ganha poderes de pesquisa Perplexity AI em nova atualização

29 Dezembro 2025
O Qwen Code v0.5.0 do Alibaba transforma o terminal em um ecossistema de desenvolvimento completo

O Qwen Code v0.5.0 do Alibaba transforma o terminal em um ecossistema de desenvolvimento completo

26 Dezembro 2025
ChatGPT evolui para um pacote de escritório com novos blocos de formatação

ChatGPT evolui para um pacote de escritório com novos blocos de formatação

26 Dezembro 2025
O Google NotebookLM apresenta "Modo Palestra" para aprendizado de IA em 30 minutos

O Google NotebookLM apresenta "Modo Palestra" para aprendizado de IA em 30 minutos

26 Dezembro 2025
A violação de dados da Aflac afetou 22,65 milhões de clientes

A violação de dados da Aflac afetou 22,65 milhões de clientes

26 Dezembro 2025
Amazon adiciona Angi, Expedia, Square e Yelp ao Alexa+

Amazon adiciona Angi, Expedia, Square e Yelp ao Alexa+

26 Dezembro 2025

Recent Posts

  • WhatsApp libera pacote de figurinhas 2026 e fogos de artifício em videochamadas
  • Novo carro-chefe da Xiaomi com eSIM entra em produção em massa no próximo ano
  • Meta compra Manus, empresa de IA em rápido crescimento, em negócio de 2 bilhões de dólares
  • Gallery TV junta-se à linha de estilo de vida da LG com serviço de arte exclusivo
  • Por que o acordo Groq da Nvidia é tão importante para o futuro da IA

Recent Comments

Nenhum comentário para mostrar.
Dataconomy PT

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.