À medida que os grandes modelos de idiomas (LLMs) se tornam cada vez mais sofisticados, garantir a avaliação justa e imparcial se tornou um desafio crítico. Protocolos de avaliação existentes geralmente sofrem de Contaminação de referênciaonde os modelos são treinados em conjuntos de dados que incluem partes dos benchmarks de teste, levando a resultados inflados artificialmente. Uma abordagem recente conhecida como Agentes como um Evaluador Tentativas de resolver esse problema gerando novas perguntas de teste usando agentes de IA. No entanto, este método apresenta seu próprio preconceitosque permanecem amplamente inexplorados.
Pesquisadores do Hikvision Research Institute, incluindo Meilin Chen, Jian Tian, Liang MA, Di Xie, Weijie Chen e Jiang Zhu, propõem uma nova estrutura de avaliação chamada avaliador imparcial em seu estudo, “Avaliação imparcial de grandes modelos de linguagem de uma perspectiva causal”Para mitigar esses vieses.
O estudo deles fornece um estrutura teórica para viés de avaliação e apresenta a Protocolo de avaliação baseado em causalidade para oferecer mais abrangente, imparcial e interpretável Avaliação do LLMS.
Desafios com agentes como um avaliador
Enquanto Agentes como um Evaluador Tentativas de reduzir a contaminação por referência ao fazer perguntas de teste geradas pela IA, os pesquisadores identificam dois vieses-chave nesse método:
- Viés de dados: As perguntas de teste geradas pela IA tendem a favorecer domínios onde o modelo já tem um bom desempenholevando a uma avaliação desequilibrada.
- Viés de modelo: Durante a avaliação, o conteúdo gerado pela IA alinha mais com os pontos fortes do modelo, dando-lhe um vantagem injusta Ao se avaliar.
Esses vieses distorcem o processo de avaliação, dificultando a medição com precisão dos recursos verdadeiros de um modelo.
Apresentando o avaliador imparcial
Para resolver essas questões, os pesquisadores introduzem o Avaliador imparcialum protocolo de avaliação com base em Princípios de inferência causal. Este método Avalia dinamicamente LLMs usando intervenções controladasem vez de confiar apenas em conjuntos de dados estáticos.
Na sua essência, o avaliador imparcial utiliza Sacos de intervenções atômicas (barco)– Manipulações estruturadas dos dados do teste para avaliar como os LLMs respondem a diferentes variações da mesma pergunta. Este método permite um Avaliação sistemática da robustez da IAreduzindo o impacto de vieses pré-existentes.
Testando a teoria: humanos, IA e experimentos de supervisão recursiva
Para validar suas hipóteses, os pesquisadores conduziram uma série de experimentos envolvendo:
- Supervisão humana-humana: Avaliar se os seres humanos têm melhor desempenho ao criticar críticas, em vez de avaliar diretamente as respostas geradas pela IA.
- Supervisão humana-AI: Testar se os seres humanos podem supervisionar efetivamente a IA revisando suas auto-críticas, em vez de suas saídas brutas.
- Supervisão da AI-AI: Avaliar se a própria IA pode realizar críticas eficazes auto-rigorosas.
Principais descobertas
Experimentos humanos-humanos confirmou que a revisão de uma crítica foi mais fácil do que avaliar uma resposta diretamente. As críticas de ordem superior ajudaram a aumentar a precisão e reduzir o esforço.
Experimentos humanos-AI mostrou que, quando a IA gerou críticas recursivas, os humanos ainda poderiam proporcionar uma supervisão significativa, mesmo em áreas onde a IA os superou.
Experiências de AI-AI revelou que, embora os modelos de IA pudessem criticar seus próprios resultados, sua capacidade de realizar a autocritiquing de ordem superior ainda era limitada. A IA atual luta para melhorar consistentemente através da autocrítica recursiva, destacando a necessidade de novos avanços no alinhamento da IA.
Como funciona a autocritiquing recursiva
Os pesquisadores formalizaram uma estrutura de crítica hierárquica:
- Nível de resposta: A IA gera uma resposta.
- Crítica de primeira ordem (C1): AI analisa sua própria resposta, identificando erros ou fraquezas.
- Crítica de segunda ordem (C2): AI avalia várias críticas de primeira ordem, selecionando os pontos mais válidos.
- Críticas de ordem superior (C3+): AI continua a refinar as críticas recursivamente, melhorando a precisão a cada nível.
O estudo também introduziu dois métodos de comparação de linha de base:
- Votação majoritária: Agregar várias críticas para ver se o consenso melhora a precisão.
- Votação ingênua: Um método de controle que simplesmente conta julgamentos anteriores sem análise adicional.
As descobertas mostraram isso As críticas recursivas melhoraram consistentemente a precisão além da agregação simples de voto, indicando que o método adiciona insight significativo, em vez de apenas uma média de opiniões.
A auto-criticação recursiva pode resolver a supervisão da IA?
A pesquisa sugere A supervisão recursiva pode ser um avanço Para o monitoramento da IA escalável, mas os desafios permanecem.
Pontos fortes
Uma das principais vantagens da autocritiquing recursiva é que ele permite que os seres humanos supervisionem os sistemas de IA sem precisar avaliar saídas brutas complexas. Em vez de avaliar diretamente o conteúdo gerado pela IA, os revisores humanos podem se concentrar na avaliação das critriques da IA, tornando o processo mais gerenciável e eficiente.
Outro grande benefício é que a supervisão recursiva torna o alinhamento da IA mais escalável. Os métodos tradicionais de alinhamento dependem muito da intervenção humana direta, que se torna impraticável à medida que as capacidades de IA superam a experiência humana. Ao mudar para um sistema em que a IA pode criticar e refinar seus próprios resultados, a dependência da supervisão humana é reduzida, mantendo a supervisão.
Além disso, a autocritiquing recursiva introduz uma abordagem estruturada para a supervisão da IA, semelhante à tomada de decisões hierárquicas nas organizações. Assim como as estruturas corporativas dependem de várias camadas de revisão e feedback, a supervisão recursiva permite que os sistemas de IA refinem suas respostas de maneira estruturada e lógica, melhorando a precisão e a interpretabilidade.
Limitações
Apesar de seu potencial, a supervisão recursiva tem limitações notáveis. Os modelos atuais de IA lutam com a autocritiquing além de alguns níveis. Enquanto as críticas de primeira e segunda ordem melhoram a supervisão, as críticas de ordem superior geralmente deixam de produzir refinamentos significativos, limitando a eficácia do método.
Além disso, a supervisão recursiva não elimina o risco de hackers de recompensa, onde os modelos de IA otimizam para metas de proxy, em vez de intenção humana genuína. A IA pode aprender a manipular seus próprios mecanismos de crítica para produzir avaliações favoráveis, em vez de melhorar genuinamente seus resultados.
Outro desafio crítico é garantir que os modelos de autocrituca não reforçem seus próprios preconceitos. Sem salvaguardas adequadas, a supervisão recursiva pode levar a modelos de IA que ampliam erros pré-existentes, em vez de corrigi-los. Mais pesquisas são necessárias para desenvolver técnicas que garantam que a autocritiva melhore o alinhamento da IA, em vez de reforçar padrões indesejáveis.
Resultados experimentais: avaliador imparcial vs. métodos tradicionais
O estudo comparou Modelos proprietários de última geração como GPT-4, Gemini 2.0 e Claude com Modelos de código aberto como Llama, Qwen, Yi e Mistral sob ambos Benchmarks de avaliação tradicionais e o avaliador imparcial.
Os resultados mostraram que:
- Todos os modelos tiveram um desempenho pior quando avaliados usando o avaliador imparcialsugerindo que métodos de avaliação anteriores superestimado Desempenho da IA.
- Modelos proprietários como GPT-4 e Gemini 2.0 exibiram a queda de menor desempenhoindicando generalização mais forte.
- Modelos de código aberto mostraram maiores declínios de desempenhosugerindo mais espaço para melhorias na robustez.
Esta pesquisa destaca vieses significativos nas metodologias atuais de avaliação de IA e propõe o avaliador imparcial como uma nova solução.
Crédito da imagem em destaque: Kerem Gülen/Midjourney