A próxima vez que alguém lhe disser que a IA nos ajudará a regular a IA, você pode fazer uma pausa. Porque quando os pesquisadores colocam grandes modelos de idiomas (LLMs) em um ambiente regulatório simulado, fazendo com que eles desempenhem os papéis de usuários, desenvolvedores e reguladores, os resultados não foram exatamente tranquilizadores.
Este novo estudarliderado por uma equipe da Teesside University e colaboradores de toda a Europa, usou a teoria evolutiva dos jogos para explorar uma questão fundamental: os próprios sistemas de IA seguiriam as regras do regulamento da IA? E ainda mais interessante: em que condições eles trapachariam?
O experimento: três AIS entram em uma sala de reuniões
No coração do estudo, há uma configuração clássica de três jogadores: um jogador representa usuários de IA, outros desenvolvedores de IA e o terceiro regulador. Cada um tem opções simples: confie ou não, cumpra ou defeito, regulamenta ou fique com as mãos.
Mas, em vez de apenas administrar modelos matemáticos, os pesquisadores usaram LLMs reais, GPT-4O de OpenAi e Mistral grandee os fizeram interpretar esses cenários em centenas de jogos.
Às vezes, era um acordo único (jogue uma vez, revela sua estratégia). Outras vezes, foi um jogo repetido, onde os agentes podiam aprender com comportamentos anteriores.
Fundamentalmente, os pesquisadores adicionaram complicações realistas:
- A regulamentação vem com custos (o monitoramento exige esforço)
- Os desenvolvedores enfrentam penalidades se pegos quebrando regras
- Os usuários podem confiar incondicionalmente – ou apenas confiar se os reguladores tiverem uma boa reputação
- Todo mundo quer maximizar seu retorno
Os resultados: os agentes da IA se comportam pior quando os usuários são céticos
O título insight? A confiança condicional, quando os usuários confiam apenas se os reguladores parecerem competentes, saindo espetacularmente pela culatra.
Quando os usuários eram cautelosos, os desenvolvedores e os reguladores eram mais propensos a desertar. Regulamento deteriorado. Os desenvolvedores cortam os cantos. Os reguladores se tornaram preguiçosos ou brandos. Confiar em espiral.
Mas quando os usuários depositaram confiança incondicional no sistema, mesmo sem evidências perfeitas, os desenvolvedores e os reguladores tinham maior probabilidade de cooperar e construir IA mais segura. É um paradoxo brutal: quanto mais cautelosos usuários, maior a probabilidade de o sistema se tornar não confiável.
GPT-4 vs Mistral: Personalidades AI importantes
Havia outra ruga fascinante. Diferentes LLMs se comportaram de maneira diferente.
- O GPT-4O se apoiou mais otimista. Era mais provável que confie e cumprisse, especialmente em jogos repetidos, onde a cooperação poderia surgir com o tempo.
- Mistral grande era mais pessimista. Tendia a desertar mais cedo, confiava menos e era mais sensível aos custos regulatórios.
Isso significa que mesmo a IA que você escolhe para simulações de governança pode moldar suas conclusões – um grande desafio para a reprodutibilidade na pesquisa de regulamentação da IA.
Adicionando personalidades: os riscos de ajustar o comportamento da IA
Os pesquisadores também testaram o que acontece quando você injeta “personalidades” explícitas nos agentes da IA.
- Os usuários avessos ao risco confiaram menos.
- Desenvolvedores agressivos desertaram mais.
- Os reguladores rigorosos melhoraram a conformidade, mas apenas até certo ponto.
Curiosamente, a definição de personalidades específicas tornou os comportamentos de LLM no GPT-4O e Mistral mais semelhantes. Sem personalidades, os agentes da IA inadimpleiam para uma visão de mundo mais “pessimista”, muitas vezes assumindo que desenvolvedores e reguladores não agiriam de boa fé.
Então, a IA pode regular a IA?
Em resumo: somente se o ambiente já estiver confiando, transparente e bem incentivado.
O estudo sugere que os sistemas de regulamentação que dependem dos próprios agentes de IA podem herdar a confusão e a imprevisibilidade do comportamento estratégico humano. Também aponta para uma falha crítica na idéia de automatizar a governança: os sistemas de IA refletirão as estruturas de confiança do ambiente em que estão colocadas.
Se os reguladores estiverem subfinanciados ou fracos, ou se os usuários forem céticos, os desenvolvedores de IA, humanos ou não, provavelmente cortarão os cantos. Por fim, os pesquisadores argumentam que as soluções técnicas por si só não criarão ecossistemas confiáveis de IA. A teoria dos jogos nos mostra que incentivos, reputação e transparência são profundamente importantes. E seus experimentos mostram que mesmo os LLMs mais inteligentes não podem escapar dessas dinâmicas.
Seu aviso aos formuladores de políticas é claro: a regulamentação não é apenas escrever regras. Trata -se de construir estruturas onde a confiança é recompensada, a aplicação é credível e o corte de cantos é caro.