Dataconomy PT
Subscribe
No Result
View All Result
Dataconomy PT
Subscribe
No Result
View All Result
Dataconomy PT
No Result
View All Result

O estudo descobre que os LLMs não podem simular com segurança a psicologia humana

byKerem Gülen
12 Agosto 2025
in Research
Home Research
Share on FacebookShare on Twitter

Pesquisadores da Universidade Bielefeld e da Universidade Purdue publicaram Grandes modelos de linguagem não simulam a psicologia humanaapresentando evidências conceituais e empíricas de que grandes modelos de linguagem (LLMs) não podem ser tratados como simuladores consistentes das respostas psicológicas humanas (Schröder et al. 2025).

Antecedentes e escopo

Desde 2018, LLMs como GPT-3.5, GPT-4 e LLAMA-3.1 foram aplicados a tarefas da criação de conteúdo à educação (Schröder et al. 2025). Alguns pesquisadores propuseram que os LLMs pudessem substituir os participantes humanos de estudos psicológicos, respondendo a avisos que descrevem uma persona, apresentam um estímulo e fornecem um questionário (Almeida et al. 2024; Kwok et al. 2024). O modelo Centaur, lançado por Binz et al. (2025), foi ajustado em aproximadamente 10 milhões de respostas humanas de 160 experimentos Para gerar respostas humanas em tais configurações (Binz et al. 2025).

Trabalhos anteriores encontraram alto alinhamento entre LLM e julgamentos morais humanos. Por exemplo, Dillion et al. (2023) relataram uma correlação de 0,95 entre as classificações do GPT-3.5 e as classificações humanas 464 cenários morais. Estudos de acompanhamento com GPT-4O sugeriram o raciocínio moral julgado como mais confiável e correto do que as respostas de ética humano ou especialista (Dillion et al. 2025). Modelos especializados como Delphi, treinados em julgamentos morais de crowdsourcing, também superaram os LLMs de uso geral em tarefas de raciocínio morais (Jiang et al. 2025).

Críticas conceituais

Os autores resumem várias críticas ao tratamento de LLMs como simuladores da psicologia humana. Primeiro, os LLMs geralmente respondem inconsistentemente às instruções, com a qualidade da saída altamente dependente dos detalhes e do enquadramento imediatos (Zhu et al. 2024; Wang et al. 2025). Segundo, os resultados variam entre os tipos de modelos e as reformulações do mesmo prompt (MA 2024). Terceiro, embora os LLMs possam se aproximar das respostas humanas médias, eles não conseguem reproduzir toda a variação das opiniões humanas, incluindo a diversidade cultural (Rime 2025; Kwok et al. 2024).

Viés é outra preocupação. Os LLMs herdam vieses culturais, de gênero, ocupacional e socioeconômico dos dados de treinamento, que podem diferir sistematicamente dos vieses humanos (Rossi et al. 2024). Eles também produzem “alucinações” – conteúdo factualmente incorreto ou fictício – sem um mecanismo interno para distinguir a verdade (Huang et al. 2025; Reddy et al. 2024).

O trabalho teórico apóia essas críticas. Van Rooij et al. (2024) demonstraram matematicamente que nenhum modelo computacional treinado apenas em dados observacionais pode corresponder às respostas humanas em todos os insumos. Do ponto de vista do aprendizado de máquina, os autores argumentam que a generalização do LLM é limitada a sequências de token semelhantes aos dados de treinamento, não a novas entradas com diferentes significados. Isso é crítico porque o uso de LLMs como participantes simulados requer generalização significativamente para novas configurações experimentais.

Testes empíricos com cenários morais

A equipe testou seu argumento usando 30 Cenários morais de Dillion et al. (2023) com classificações humanas de estudos anteriores (Clifford et al. 2015; Cook e Kuhn 2021; Effron 2022; Grizzard et al. 2021; Mickelberg et al. 2022). Cada cenário foi apresentado em sua redação original e em uma versão ligeiramente reformulada com significado alterado, mas sequências similares. Por exemplo, “corte a barba para um ancião local para envergonhá -lo” tornou -se “corte a barba de um ancião local para raspar” (Schröder et al. 2025).

Participantes humanos (N = 374Mago =39.54Sd =12.53) foram recrutados por prolíficos e designados aleatoriamente para condições originais ou reformuladas. Eles classificaram cada comportamento em uma escala de -4 (extremamente antiético) a +4 (extremamente ético). As classificações de LLM foram obtidas do GPT-3.5, GPT-4 (Mini), LLAMA-3.1 70B e Centaur, com cada consulta repetida 10 tempos para explicar a variação aleatória (Schröder et al. 2025).

Resultados

Para itens originais, as correlações entre as classificações humanas e LLM replicaram achados anteriores: GPT-3.5 e GPT-4 mostraram correlações acima 0,89 com classificações humanas, enquanto Llama-3.1 e Centaur também apresentaram alto alinhamento (r ≥ 0,80) (Schröder et al. 2025). No entanto, para itens reformulados, as classificações humanas caíram em correlação para 0,54 com suas classificações de itens originais, refletindo sensiti

Tags: AiLLMs

Related Posts

IA corrompe pesquisas acadêmicas com citações de estudos inexistentes

IA corrompe pesquisas acadêmicas com citações de estudos inexistentes

30 Dezembro 2025
Modelos padrão de IA falham em matemática simples sem treinamento especializado

Modelos padrão de IA falham em matemática simples sem treinamento especializado

30 Dezembro 2025
As baterias de íon de sódio estão mais próximas do carregamento rápido à medida que os pesquisadores resolvem gargalos de íons

As baterias de íon de sódio estão mais próximas do carregamento rápido à medida que os pesquisadores resolvem gargalos de íons

30 Dezembro 2025
IA corrompe pesquisas acadêmicas com citações de estudos inexistentes

IA corrompe pesquisas acadêmicas com citações de estudos inexistentes

30 Dezembro 2025
Cientistas descobrem mais de 17 mil novas espécies

Cientistas descobrem mais de 17 mil novas espécies

26 Dezembro 2025
GPT-5.2 ultrapassa a linha de base do doutorado especializado com pontuação científica de 92%

GPT-5.2 ultrapassa a linha de base do doutorado especializado com pontuação científica de 92%

24 Dezembro 2025

Recent Posts

  • WhatsApp libera pacote de figurinhas 2026 e fogos de artifício em videochamadas
  • Novo carro-chefe da Xiaomi com eSIM entra em produção em massa no próximo ano
  • Meta compra Manus, empresa de IA em rápido crescimento, em negócio de 2 bilhões de dólares
  • Gallery TV junta-se à linha de estilo de vida da LG com serviço de arte exclusivo
  • Por que o acordo Groq da Nvidia é tão importante para o futuro da IA

Recent Comments

Nenhum comentário para mostrar.
Dataconomy PT

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.