Um novo estudo tem descoberto Um aumento alarmante nos trabalhos de pesquisa em fórmula derivados da Pesquisa Nacional de Exames de Saúde e Nutrição (NHANES), sugerindo que as ferramentas de inteligência artificial estão sendo mal utilizadas para produzir em massa estatisticamente fraca e potencialmente enganosa literatura científica. Os autores apontam para um aumento nas análises de fator único que desconsideram a complexidade multifatorial, exploram os dados abertos seletivamente e ignoram as correções estatísticas robustas.
Entre 2014 e 2021apenas quatro desses documentos foram publicados a cada ano. Mas apenas em 2024, até 9 de outubro, o registro havia aumentado para 190. Esse crescimento exponencial, emparelhado com uma mudança nas origens da publicação e uma dependência da automação, indica que os pipelines assistidos pela AA podem estar acelerando a produção de manuscrito de baixa qualidade. No centro do problema está o uso indevido do NHANES, um conjunto de dados respeitado e pronto para o governo dos EUA desenvolvido originalmente para avaliar as tendências de saúde pública em toda a população.
Desembalando o problema do NHANES
O NHANES fornece um conjunto de dados excepcionalmente rico, combinando dados clínicos, comportamentais e laboratoriais em milhares de variáveis. É acessível através de APIs e possui bibliotecas Python e R padronizadas, permitindo que os pesquisadores extraem e analisem os dados com eficiência. Isso o torna uma ferramenta valiosa para pesquisadores de saúde pública e desenvolvedores de IA. Mas essa conveniência também cria uma vulnerabilidade: permite que os pesquisadores gerem resultados rapidamente e com o mínimo de supervisão, levando a uma explosão de pesquisas de fórmula.
O novo estudo analisou 341 artigos baseados em NHANES, publicados entre 2014 e 2024, que se baseavam em correlações de variável única. Esses trabalhos, em média, apareceram em periódicos de impacto moderado (fator de impacto médio de 3,6) e geralmente se concentravam em condições como depressão, diabetes ou doença cardiovascular. Em vez de explorar a natureza multifatorial dessas condições, os estudos normalmente atraíram significância estatística de uma única variável independente, ignorando a correção de falsas descobertas e freqüentemente confiando em subconjuntos de dados inexplicáveis.
Uma grande preocupação é que as condições multifatoriais de saúde – como distúrbios de saúde mental, inflamação crônica ou doenças cardiovasculares – foram analisadas usando métodos mais adequados para relacionamentos binários simples. De fato, esses estudos apresentaram achados que despojavam nuances e ignoravam a realidade de que os resultados da saúde raramente são impulsionados por um único fator.
A depressão foi usada como um estudo de caso, com 28 trabalhos individuais reivindicando associações entre a condição e várias variáveis independentes. No entanto, apenas 13 dessas associações permaneceram estatisticamente significativas após a aplicação da correção da taxa de descoberta falsa (FDR). Sem correção adequada, essas publicações correm o risco de introduzir um alto volume de Erros do tipo I. na literatura científica. Em alguns casos, os pesquisadores pareciam reciclar variáveis como preditores e resultados entre os artigos, atrapalhando ainda mais as águas.
Adele da Microsoft quer dar um perfil cognitivo à sua IA
Mineração de dados seletivos e arrastar
Outra questão descoberta pelos autores foi o uso de subconjuntos de dados injustificados. Embora o NHANES forneça uma ampla linha do tempo dos dados de saúde que datam de 1999, muitos pesquisadores escolheram janelas estreitas de análise sem divulgar a lógica. Por exemplo, alguns estudos usaram apenas o 2003 a 2018 Janela para analisar diabetes e inflamação, apesar da maior disponibilidade de dados. A prática sugere a dragagem de dados ou a luta, hipotetizando após os resultados são conhecidos, uma abordagem metodologicamente falha que prejudica a reprodutibilidade e a transparência.
O estudo médio analisou apenas quatro anos de dados do NHANES, apesar do banco de dados oferecer mais de duas décadas de informação. Essa amostragem seletiva permite que os autores aumentem a probabilidade de obter resultados significativos sem contabilizar a complexidade do conjunto de dados completo, facilitando a produção e a publicação de manuscritos em alto volume.
Os resultados representam um sério desafio à integridade da literatura científica. Estudos de variável única que não consideram as interdependências complexas têm maior probabilidade de serem enganosas. Quando repetido em escala, essa pesquisa inunda o ecossistema acadêmico com trabalhos que atendem aos limiares de publicação, mas oferecem pouca percepção. Isso é agravado pela fraca revisão por pares e pela crescente pressão sobre os pesquisadores para publicar com frequência e rapidez.
Os autores alertam que essas práticas, se deixadas desmarcadas, podem mudar o equilíbrio em alguns subcampos em que os papéis fabricados superam geralmente os legítimos. O uso da IA para acelerar a geração do manuscrito apenas amplia esse risco. À medida que os modelos generativos se tornam mais acessíveis, eles permitem a rápida conversão de saídas estatísticas em manuscritos completos, reduzindo o tempo e a experiência necessários para publicar artigos científicos.
Recomendações para as partes interessadas:
Para mitigar os riscos de pesquisas de dragagem e produção de dados habilitadas para AI, os autores propõem várias etapas concretas:
- Para pesquisadores: Reconheça as limitações dos estudos de um fator único e incorpore análises multifatoriais, quando apropriado. Justifique claramente qualquer subconjunto de dados ou alterações de hipótese.
- Para provedores de dados: Introduzir acesso auditável por meio de teclas de API ou IDs de aplicativos para desencorajar a mineração indiscriminada. Exigir que qualquer publicação que cite seus conjuntos de dados divulgue o histórico completo de extração de dados.
- Para editores: Aumente as taxas de rejeição de mesa para papéis de fórmula. Empregar revisores estatísticos dedicados. Use modelos para identificar manuscritos usando pipelines idênticos com apenas swaps variáveis.
- Para revisores de pares: Trate o uso de análise de variável única para condições complexas como bandeira vermelha. Solicite esclarecimentos quando falta rigor estatístico ou subconjuntos de dados são pouco justificados.
- Para a comunidade científica mais ampla: Envolva-se na revisão pós-publicação. Plataformas como o Pubpeer devem ser usadas ativamente para sinalizar práticas questionáveis, mesmo quando os métodos estatísticos parecem superficialmente sólidos.