Durante anos, ouvimos isso Ai chatbots são politicamente tendenciosos– Skewing Liberal, conservador ou em algum lugar intermediário. Mas um novo estudar de pesquisadores no Universidade de Klagenfurt sugere algo surpreendente: A maioria dos modelos de IA não é tão tendenciosa quanto pensamos – eles preferem não se envolver em debates ideológicos.
Aplicando um Técnica estatística chamada teoria da resposta de itens (IRT)os pesquisadores descobriram que Modelos de idiomas grandes (LLMS) como ChatGPT 3.5 e Llama da Meta não necessariamente “magros” para a esquerda ou direita. Em vez disso, eles geralmente se recusam a assumir uma posição clara sobre questões políticas ou econômicas. Em outras palavras, o que parece ser viés pode ser realmente um Estratégia de prevenção incorporada em mecanismos de segurança de IA.
O problema com os métodos de detecção de viés existentes
A maioria dos estudos anteriores que avalia o viés no LLMS adotou uma das duas abordagens defeituosas:
- Aplicando escalas ideológicas centradas no ser humano às respostas da IA
- Essas escalas foram projetadas para entrevistados humanos, não os modelos de IA treinados em distribuições de probabilidade.
- Eles assumem modelos de IA “pensam” como humanos e podem ser medidos no mesmo espectro ideológico.
- Usando classificações baseadas em palavras-chave ou “juízes” de IA
- Alguns estudos tentam classificar as respostas da IA usando palavras -chave predeterminadas.
- Outros usam modelos de IA para avaliar saídas geradas pela IA, mas isso apresenta circularidade– Um sistema de IA avaliando outro com vieses desconhecidos próprios.
Uma abordagem mais científica: teoria da resposta ao item (IRT) na avaliação de viés de IA
Os pesquisadores introduzem um Modelo baseado na teoria da resposta de itens (IRT)que é amplamente utilizado em psicometria e ciências sociais para avaliar traços latentes– As coisas que não podem ser observadas diretamente, mas podem ser deduzidas das respostas a instruções estruturadas.
O estudo se aplica Dois modelos de IRT para LLMS:
- Etapa 1: Evitação da resposta (prefira não responder ou PNA)
- Mede a frequência com que um LLM recusa Para se envolver com uma declaração ideológica.
- Identifica se a resposta evitação Em vez de viés explícito distorce as conclusões de estudos anteriores.
- Etapa 2: Estimativa de viés ideológico (para respostas não-PNA)
- Para as respostas que Envolvao modelo avalia se a IA distorce esquerda ou direita em questões sociais e econômicas.
- Usa a Modelo de crédito parcial generalizado (GPCM) para avaliar não apenas concordância/desacordo mas também o grau de acordo.
Viés de teste: LLMs de ajuste fino com ideologias políticas
Para testar se os LLMs exibem viés, os pesquisadores Duas famílias de modelos ajustadas para representar explicitamente pontos de vista da esquerda e de direita:
- META LLAMA-3.2-1B-INSTRUTA (ajustada para ideologias liberais e conservadoras dos EUA)
- Chatgpt 3.5 (ajustado para ideologias liberais e conservadoras dos EUA)
Esses modelos de ajuste fino serviram como linhas de base para avaliação de viés. Suas respostas foram comparadas aos modelos prontos para uso e não afinados para ver como as inclinações ideológicas se manifestaram-ou se elas o fizeram.
Processo de teste
- 105 itens de teste ideológico foram criados, cobrindo Conservadorismo Econômico e Social/Liberalismo baseado em estruturas psicológicas.
- Cada LLM respondeu a esses avisos, com os modelos ajustados agindo como ideológicos âncoras para detectar desvios.
- Um conjunto de dados em larga escala de 630 respostas foi coletado e analisado usando modelos IRT.
Principais descobertas
Uma das descobertas mais marcantes do estudo é que os LLMs prontos para evitar questões ideológicas, em vez de expressar um viés político claro. Chatgpt, por exemplo, recusou -se a responder 92,55% de avisos ideológicos, enquanto o modelo de lhama base evitou a resposta 55,02% da época. Isso sugere que os modelos de IA foram projetados para inclinar-se para a neutralidade ou não-engajamento em vez de adotar uma posição partidária. Em vez de distorcer ativamente uma ideologia política, esses modelos parecem deixar de evitando tópicos controversos completamentedesafiando reivindicações anteriores de viés inerente na IA.
Ao examinar modelos de ajuste fino, os pesquisadores descobriram que os padrões ideológicos esperados surgiram-mas somente quando os LLMs foram treinados especificamente Adote um ponto de vista político. Os modelos de “GPT esquerdo” e “GPT direto”, finos, produziram respostas previsíveis alinhadas às ideologias liberais e conservadoras dos EUA. No entanto, Esse viés não apareceu nas versões não afinadassugerindo que as inclinações ideológicas nos LLMs não são intrínsecas, mas sim o resultado de modificações intencionais durante o treinamento.
O estudo também revelou que a detecção de viés na IA é mais complexa do que simplesmente categorizar as respostas como de esquerda ou de direita. Alguns itens de teste ideológico eram muito mais propensos acionar o viés do que outrosdestacando o Importância da seleção de problemas na avaliação do comportamento da IA. Questões econômicas, como tributação e gastos do governoeram preditores particularmente fortes de viés ideológico em comparação com certas questões sociais. Isso indica isso Nem todos os tópicos políticos provocam o mesmo nível de variação de respostatornando crucial avaliar Como diferentes tipos de avisos influenciam saídas geradas pela IA.
Gamificação 2.0: Como a IA sabe o que o mantém engajado
Por que isso importa
Essas descobertas desafiam a suposição predominante de que os LLMs inerentemente favorecem uma ideologia política em detrimento de outra. Em vez disso, as evidências sugerem que os desenvolvedores de IA têm não engajamento priorizado sobre tomar uma posição. Embora isso possa parecer uma abordagem neutra, levanta novas preocupações sobre a maneira como os modelos de IA interagem com tópicos politicamente sensíveis e as implicações mais amplas para a governança da IA, detecção de desinformação e moderação do conteúdo.
Um dos principais argumentos é que A regulação do viés de IA é mais complicada do que se pensou anteriormente. Se os modelos de IA forem projetados sistematicamente para Evite engajamentoentão os esforços para proibir os resultados da IA “tendenciosos” podem inadvertidamente reforçar a neutralidade como a posição padrãolevando à falta de discurso significativo sobre políticas públicas, ética e governança. Embora a neutralidade possa parecer preferível a preconceitos evidentes, também pode significar que o conteúdo gerado pela IA Discussões cruciais inteiramentelimitando sua utilidade em conversas politicamente carregadas.
O estudo também ressalta o necessidade de mais ferramentas de detecção de viés sutis que diferenciam entre Viés ideológico genuíno e prevenção de resposta. Muitos estudos anteriores podem ter não interpretou mal o não engajamento como uma postura ideológicaRotulando falsamente LLMs como partidário. Métodos futuros de detecção de viés devem ser projetados para identificar Se as respostas da IA refletem uma posição política ou se elas são simplesmente programadas para evitar o engajamento ideológico.
O viés da IA não é apenas sobre o que os modelos dizem, mas o que eles se recusam a dizer. E essa, talvez, seja a história maior.
Crédito da imagem em destaque: Kerem Gülen/Midjourney