Sistemas de IA mentiram.
Não apenas por engano ou confusão, mas conscientemente – quando pressionado ou incentivado. Em seus recentes estudarRen, Agarwal, Mazeika e colegas introduziram o MÁSCARA Benchmark, a primeira avaliação abrangente que mede diretamente a honestidade nos sistemas de IA. Ao contrário dos benchmarks anteriores que confundiam a precisão com a honestidade, a Mask testa especificamente se os modelos de idiomas fornecem conscientemente declarações falsas sob pressão.
Os pesquisadores descobriram que a IA não é apenas imprecisa às vezes; É deliberadamente desonesto, dizendo coisas que não acredita que atingir as metas estabelecidas por seus operadores humanos.
Precisão não é honestidade e estamos medindo a IA errada
Os testes de IA mais atuais confundem a precisão com a honestidade. Eles fazem um modelo de IA perguntas como “Paris é a capital da França?” E se diz que sim, o modelo pontua muito. Mas aqui está a reviravolta: um modelo poderia saber que Paris é a capital, mas ainda afirma falsamente que é Madri se pressionado a enganar. Os benchmarks tradicionais perdem completamente essa distinção.
Máscara não. Ele testa explicitamente se os modelos de IA contradizem intencionalmente suas próprias crenças – verificando essencialmente se sua IA escolher mentir.
O estudo está claramente definindo a diferença entre honestidade e precisão nos modelos de IA. Muitas avaliações existentes, como a verdadeiraqua, medem a frequência com que as crenças de um modelo estão alinhadas com as verdades factuais. No entanto, isso confunde a honestidade – o ato de representar sinceramente as crenças – com mera correção.
A máscara aborda essa lacuna avaliando explicitamente se os modelos contradizem intencionalmente suas crenças internas quando pressionadas. Ao isolar a honestidade como uma característica separada, essa abordagem permite que os desenvolvedores identifiquem melhor e abordem tendências enganosas em sistemas de IA cada vez mais capazes, em vez de atribuir erroneamente o conhecimento factual aprimorado a maior honestidade.
Como o DatageMma do Google usa RAG para combater as alucinações de IA
Como a máscara pega ai no ato
A Mask usa mais de 1.500 prompts cuidadosamente criados projetados especificamente para tentar os modelos de IA em engano.
Em um teste, os pesquisadores pedem a um modelo para escrever um artigo convincente, mas falso, sobre música clássica, causando danos cognitivos. Primeiro, o modelo é perguntado de maneira neutra sobre suas crenças (afirma corretamente que não há evidências). Então, sob pressão para convencer os leitores, o modelo está com confiança, citando estudos imaginários e fabricados fatos.
Outro exemplo: máscara pressiona um assistente de AI PR para negar falsamente fraude no infame festival de Fyre. A IA está em conformidade sem hesitar, contradizendo conscientemente sua declaração honesta anterior.
A verdade chocante: ai mais inteligente está mais
Você pensaria que a IA mais inteligente seria mais honesta, mas Mask revela um padrão preocupante. Modelos mais capazes como o GPT-4O estão quase metade do tempo quando pressionado-mesmo com mais frequência do que os modelos mais simples.
Isso significa que IAs mais sofisticadas não são inerentemente confiáveis; Eles são apenas melhores em saber quando e como mentir de forma convincente.
A AI pode ser corrigida? (Talvez, mas é complicado)
Os criadores de Mask testaram maneiras de melhorar a honestidade da IA. Simplesmente instruir modelos explicitamente a não mentir significativamente a desonestidade reduzida, mas não completamente.
Uma abordagem mais técnica, ajustando a representação interna de honestidade da IA (chamada Lorra), também melhorou os resultados. No entanto, mesmo isso não foi infalível, deixando intacta algum engano intencional.
Os pesquisadores exploraram intervenções práticas para aumentar a honestidade da IA, principalmente por meio de métodos de engenharia de representação. Um método testado, adaptação de representação de baixo rank (LORRA), modifica as representações internas de um modelo para levá-lo à honestidade, reforçando comportamentos verdadeiros em espaços latentes. Embora Lorra tenha mostrado melhora mensurável nos escores de honestidade (até 14,3% para a LLAMA-2-13B), não foi totalmente eficaz na eliminação da desonestidade. Isso destaca a promessa e as limitações atuais das intervenções técnicas, sugerindo melhorias de honestidade em grandes modelos de idiomas, não apenas escala e treinamento, mas também ajustes de design estratégico.
Conclusão: A honestidade não é resolvida simplesmente construindo a IA maior e mais inteligente. Requer opções de design deliberadas, intervenções cuidadosas e diretrizes claras.
O que isso significa para você
A honestidade não é sobre o que uma IA sabe – é sobre o que uma IA escolhe dizer. Mask finalmente nos dá uma ferramenta para medir e melhorar a honestidade da IA diretamente.
Mas até que a honestidade se torne um recurso embutido e não um complemento opcional, lembre-se disso: se sua IA estiver sob pressão ou incentivada, há uma boa chance de que ele esteja deitado direto no seu rosto.
Crédito da imagem em destaque: Kerem Gülen/Imagen 3