Modelos de idiomas grandes (LLMs) como GPT-4, Gemini 1.5 e Claude 3.5 fizeram avanços no raciocínio, diálogo e até negociação. Mas, quando colocados em um ambiente estratégico que exige sigilo e engano, esses agentes de IA mostram uma fraqueza significativa: eles não podem manter um segredo.
Um novo estudar Dos pesquisadores Mustafa O. Karabag e Ufuk Topcu na Universidade do Texas em Austin Put LLMs à prova usando O camaleãoum jogo de tabuleiro de identidade oculta, onde os jogadores devem revelar estrategicamente, ocultar e inferir informações. Os resultados sugerem que, embora a IA possa identificar o engano, ela luta para reter informações críticas, tornando-as inadequadas para cenários adversários em que a discrição é fundamental.
Ai toca O camaleão jogo – e falha na estratégia
Em O camaleãoum grupo de jogadores recebe uma palavra secreta, exceto um – o camaleão – que deve deduzir o segredo com base nas respostas do grupo. Os jogadores que não são do Chameleon devem equilibrar o suficiente para se reconhecer, mantendo o camaleão no escuro. O jogo exige uma abordagem ajustada ao compartilhamento de informações: demais, e o Chameleon adivinha a palavra; Muito pouco, e o grupo falha em identificar o camaleão.
Quando os agentes da IA assumiram os papéis, seus instintos estratégicos se desfez. Enquanto os LLMs como o GPT-4O foram capazes de identificar corretamente o camaleão 61% das vezes, sua capacidade de manter a palavra secreta oculta era sombria. O estudo constatou que o AIS de Chameleon poderia inferir a palavra secreta com uma surpreendente taxa de sucesso de 87% – amada que o esperado.
Agora, a IA pode clicar, rolar e digitar para você – mas isso é uma coisa boa?
Modelos teóricos confirmam o problema de compartilhamento excessivo de IA
Para entender essas falhas, os pesquisadores desenvolveram modelos matemáticos, prevendo estratégias ideais para ocultar e revelar informações. Teoricamente, os jogadores que não são do Chameleon devem ganhar cerca de 23% das vezes, mesmo que ignorassem completamente a palavra secreta. Em vez disso, os não-campeões da IA conquistaram apenas 6% dos jogos, sugerindo que estavam vazando muita informação.
“Os agentes da IA instintivamente revelam demais”, conclui o estudo. Quando os LLMs tiveram a chance de criar suas próprias estratégias, eles tendiam à divulgação excessiva, facilitando a dedução do camaleão. Isso se alinha com as descobertas de outros jogos de dedução social, como Spyfallonde os jogadores de IA demonstraram confiar demais em palavras -chave, indicando sem querer os oponentes.
Por que a IA não consegue manter segredos
Os pesquisadores levantam a hipótese de que o treinamento fundamental da IA o torna inadequado para o sigilo. Os LLMs são projetados para maximizar a coerência e a utilidade, o que geralmente significa concluir padrões, em vez de reter estrategicamente informações. Essa tendência associativa entra em conflito diretamente com a necessidade de obscurecer os principais detalhes nas interações adversárias.
Para confirmar isso, os pesquisadores executaram testes adicionais usando contagens de resultados da pesquisa na web para rastrear quanta informação os jogadores de IA foram inadvertidamente reveladores. Mesmo depois de apenas uma resposta de um LLM não-Chameleon, o Chameleon AI já conseguiu adivinhar a palavra secreta com uma probabilidade de 40%-apresentando que as respostas da IA carregavam muito mais informações do que o pretendido.
Quando muita informação se torna um passivo para a IA
Se os LLMs lutam com a discrição estratégica em ambientes controlados, como eles lidarão com cenários do mundo real, onde a ocultação da informação é crítica? As aplicações em segurança cibernética, diplomacia ou inteligência de negócios competitivas podem exigir que os sistemas de IA operem com nuances muito maiores.
Para abordar isso, os desenvolvedores de IA podem precisar treinar modelos com um foco mais forte na ambiguidade estratégica, reduzindo seu instinto de divulgar demais. Técnicas como aprendizado de reforço adversário ou treinamento explícito de engano podem ajudar a equilibrar a capacidade da IA de inferir informações sem distribuir imediatamente o jogo.
Por enquanto, porém, a IA continua sendo um pobre jogador de poker. Embora possa ser ótimo em detectar o engano, sua incapacidade de manter segredos significa que ainda não está pronto para o mundo do raciocínio estratégico de alto risco.
Crédito da imagem em destaque: Kerem Gülen/Midjourney