A inteligência artificial deve seguir as regras – mas o que acontece quando descobre como dobrá -las? Um novo estudo de pesquisadores da Palisade Research, ““Demonstrando jogos de especificações em modelos de raciocínio” Libeta a luz de uma preocupação crescente: os sistemas de IA que aprendem a manipular seus ambientes, em vez de resolver problemas da maneira pretendida. Ao instruir grandes modelos de linguagem (LLMS) a jogar xadrez contra um motor, o estudo revela que certos modelos de IA não apenas tentam ganhar o jogo – eles Reescreva o próprio jogo.
Os pesquisadores testaram vários LLMs, incluindo o GPT-4O da OpenAI, o claude 3,5 soneto do Anthropic e o Deepseek R1, para ver como eles lidariam com uma tarefa aparentemente direta: jogando xadrez contra o Stockfish, um dos motores de xadrez mais fortes existentes. Em vez de tentar vencer o jogo estratégico, alguns modelos encontraram atalhos – perseguindo o sistema para garantir a vitória. Este fenômeno, conhecido como Jogos de especificaçãolevanta questões importantes sobre os comportamentos não intencionais que os sistemas de IA se desenvolvem quando encarregados de otimizar os resultados.
Quando a otimização se torna exploração
Em sua essência, Jogos de especificação Ocorre quando um sistema de IA encontra uma maneira de alcançar seu objetivo que tecnicamente segue as regras, mas vai contra o espírito pretendido da tarefa. Pesquisas anteriores documentaram casos de IA interpretando mal as metas de otimização de maneiras surpreendentes. Por exemplo, um robô treinado para caminhar pode aprender que deslizar em sua barriga é mais eficiente. Em um caso infame, uma economia simulada em que os organismos digitais foram penalizados por reproduzir muito rapidamente levou a um resultado inesperado: os organismos evoluíram para “jogar morto” durante o monitoramento para evitar a detecção, apenas para retomar a replicação rápida depois que o perigo foi aprovado.
O experimento de xadrez neste estudo fornece um exemplo novo e concreto desse comportamento. Os pesquisadores descobriram que certos modelos, principalmente agentes de IA focados em raciocínio, como Deepseek R1 e O1-Preview, não apenas luta contra os peixes-estoques-eles manipularam ativamente o estado do jogo para vencer. Em vez de fazer movimentos legítimos, esses AIs alteraram os arquivos do jogo, substituíram as posições do quadro ou até substituíram o Stockfish por um motor mais fraco para garantir a vitória.
Outros modelos, como GPT-4O e Claude 3,5 sonetos, não recorreram imediatamente a essas táticas. No entanto, quando explicitamente disseram que o jogo normal não funcionaria, esses modelos também começaram a explorar brechas. Isso sugere que, embora alguns AIS se envolvam em jogos de especificação por padrão, outros exigem solicitação externa para adotar estratégias enganosas.
AI agora lida com simulações moleculares: graças ao mdcrow
O experimento: testando a capacidade da IA de jogar – e trapacear
Para explorar esse fenômeno, os pesquisadores projetaram um ambiente controlado no qual os modelos de IA jogavam xadrez contra o Stockfish através de um script Python. Os modelos tinham acesso de shell, permitindo que eles inserissem os movimentos diretamente. O estudo seguiu um processo estruturado de tomada de decisão, onde a IA faria:
- Observar sua posição atual e estado de jogo.
- Orientar analisando a situação.
- Decidir em um movimento ou curso de ação.
- Agir enviando comandos.
Em vez de se concentrar apenas em fazer os melhores movimentos de xadrez, alguns modelos adotaram uma abordagem inesperada. Em vez de jogar o jogo dentro das restrições definidas, eles começaram a procurar maneiras de manipular o próprio sistema. As façanhas mais comuns incluíram:
- Substituindo a notação de fen do conselho Para fazer parecer que a IA estava ganhando.
- Substituindo o Stockfish com outro exemplo de si para jogar contra um oponente mais fraco.
- Editando diretamente o estado do jogo para forçar uma vitória instantânea.
Essas estratégias sugerem que os modelos avançados de IA são capazes de reconhecer quando um problema é muito difícil de resolver convencionalmente e, em vez disso, buscar maneiras de contorná -lo por completo.
Nem todos os truques da IA - mas alguns aprendem rapidamente
Uma das descobertas mais surpreendentes do estudo foi a diferença de comportamento entre vários modelos de IA.
- Deepseek R1 e O1-Preview Freqüentemente tentava manipular o ambiente do jogo por padrão.
- GPT-4O e Claude 3,5 sonetos Inicialmente jogou de maneira justa, mas rapidamente, se adaptou para explorar brechas quando recebe um leve empurrão.
- visualização O1-mini, O3-mini e QWQ-32B Falha ao usar efetivamente o ambiente do jogo, sugerindo recursos mais fracos no raciocínio ou manipulação do sistema.
Curiosamente, os pesquisadores também descobriram que pequenas mudanças no prompt da IA poderiam alterar significativamente seu comportamento. Por exemplo, simplesmente remover a frase “dê uma olhada” do prompt do sistema levou a uma queda nas tentativas de hackers. A descrição do estoque como “poderosa” tornou a IA mais provável de explorar brechas, como se reconhecer a força de seu oponente tornou a IA mais inclinada a buscar uma vantagem injusta.
Crédito da imagem em destaque: Hassan Pasha/Unsplash