Dataconomy PT
Subscribe
No Result
View All Result
Dataconomy PT
Subscribe
No Result
View All Result
Dataconomy PT
No Result
View All Result

As ferramentas de pesquisa de IA podem estar criando mais problemas do que resolvem

byEmre Çıtak
14 Maio 2025
in Research
Home Research
Share on FacebookShare on Twitter

Um novo estudo tem descoberto Um aumento alarmante nos trabalhos de pesquisa em fórmula derivados da Pesquisa Nacional de Exames de Saúde e Nutrição (NHANES), sugerindo que as ferramentas de inteligência artificial estão sendo mal utilizadas para produzir em massa estatisticamente fraca e potencialmente enganosa literatura científica. Os autores apontam para um aumento nas análises de fator único que desconsideram a complexidade multifatorial, exploram os dados abertos seletivamente e ignoram as correções estatísticas robustas.

Entre 2014 e 2021apenas quatro desses documentos foram publicados a cada ano. Mas apenas em 2024, até 9 de outubro, o registro havia aumentado para 190. Esse crescimento exponencial, emparelhado com uma mudança nas origens da publicação e uma dependência da automação, indica que os pipelines assistidos pela AA podem estar acelerando a produção de manuscrito de baixa qualidade. No centro do problema está o uso indevido do NHANES, um conjunto de dados respeitado e pronto para o governo dos EUA desenvolvido originalmente para avaliar as tendências de saúde pública em toda a população.

Desembalando o problema do NHANES

O NHANES fornece um conjunto de dados excepcionalmente rico, combinando dados clínicos, comportamentais e laboratoriais em milhares de variáveis. É acessível através de APIs e possui bibliotecas Python e R padronizadas, permitindo que os pesquisadores extraem e analisem os dados com eficiência. Isso o torna uma ferramenta valiosa para pesquisadores de saúde pública e desenvolvedores de IA. Mas essa conveniência também cria uma vulnerabilidade: permite que os pesquisadores gerem resultados rapidamente e com o mínimo de supervisão, levando a uma explosão de pesquisas de fórmula.

O novo estudo analisou 341 artigos baseados em NHANES, publicados entre 2014 e 2024, que se baseavam em correlações de variável única. Esses trabalhos, em média, apareceram em periódicos de impacto moderado (fator de impacto médio de 3,6) e geralmente se concentravam em condições como depressão, diabetes ou doença cardiovascular. Em vez de explorar a natureza multifatorial dessas condições, os estudos normalmente atraíram significância estatística de uma única variável independente, ignorando a correção de falsas descobertas e freqüentemente confiando em subconjuntos de dados inexplicáveis.

Uma grande preocupação é que as condições multifatoriais de saúde – como distúrbios de saúde mental, inflamação crônica ou doenças cardiovasculares – foram analisadas usando métodos mais adequados para relacionamentos binários simples. De fato, esses estudos apresentaram achados que despojavam nuances e ignoravam a realidade de que os resultados da saúde raramente são impulsionados por um único fator.

A depressão foi usada como um estudo de caso, com 28 trabalhos individuais reivindicando associações entre a condição e várias variáveis ​​independentes. No entanto, apenas 13 dessas associações permaneceram estatisticamente significativas após a aplicação da correção da taxa de descoberta falsa (FDR). Sem correção adequada, essas publicações correm o risco de introduzir um alto volume de Erros do tipo I. na literatura científica. Em alguns casos, os pesquisadores pareciam reciclar variáveis ​​como preditores e resultados entre os artigos, atrapalhando ainda mais as águas.


Adele da Microsoft quer dar um perfil cognitivo à sua IA


Mineração de dados seletivos e arrastar

Outra questão descoberta pelos autores foi o uso de subconjuntos de dados injustificados. Embora o NHANES forneça uma ampla linha do tempo dos dados de saúde que datam de 1999, muitos pesquisadores escolheram janelas estreitas de análise sem divulgar a lógica. Por exemplo, alguns estudos usaram apenas o 2003 a 2018 Janela para analisar diabetes e inflamação, apesar da maior disponibilidade de dados. A prática sugere a dragagem de dados ou a luta, hipotetizando após os resultados são conhecidos, uma abordagem metodologicamente falha que prejudica a reprodutibilidade e a transparência.

O estudo médio analisou apenas quatro anos de dados do NHANES, apesar do banco de dados oferecer mais de duas décadas de informação. Essa amostragem seletiva permite que os autores aumentem a probabilidade de obter resultados significativos sem contabilizar a complexidade do conjunto de dados completo, facilitando a produção e a publicação de manuscritos em alto volume.

Dos 341 artigos revisados, mais de 50 % se originaram de apenas três famílias de editores: Frontiers, Biomed Central e Springer. Mais notavelmente, o país de origem mudou dramaticamente. Antes de 2021, apenas 8 % dos autores primários estavam baseados na China. Entre 2021 e 2024, isso subiu para 92 %. Embora isso possa refletir a mudança de prioridades de pesquisa ou incentivos políticos, a magnitude e o tempo sugerem o uso coordenado de oleodutos automatizados possivelmente ligados às operações de moinho de papel.

Os resultados representam um sério desafio à integridade da literatura científica. Estudos de variável única que não consideram as interdependências complexas têm maior probabilidade de serem enganosas. Quando repetido em escala, essa pesquisa inunda o ecossistema acadêmico com trabalhos que atendem aos limiares de publicação, mas oferecem pouca percepção. Isso é agravado pela fraca revisão por pares e pela crescente pressão sobre os pesquisadores para publicar com frequência e rapidez.

Os autores alertam que essas práticas, se deixadas desmarcadas, podem mudar o equilíbrio em alguns subcampos em que os papéis fabricados superam geralmente os legítimos. O uso da IA ​​para acelerar a geração do manuscrito apenas amplia esse risco. À medida que os modelos generativos se tornam mais acessíveis, eles permitem a rápida conversão de saídas estatísticas em manuscritos completos, reduzindo o tempo e a experiência necessários para publicar artigos científicos.

Recomendações para as partes interessadas:

Para mitigar os riscos de pesquisas de dragagem e produção de dados habilitadas para AI, os autores propõem várias etapas concretas:

  • Para pesquisadores: Reconheça as limitações dos estudos de um fator único e incorpore análises multifatoriais, quando apropriado. Justifique claramente qualquer subconjunto de dados ou alterações de hipótese.
  • Para provedores de dados: Introduzir acesso auditável por meio de teclas de API ou IDs de aplicativos para desencorajar a mineração indiscriminada. Exigir que qualquer publicação que cite seus conjuntos de dados divulgue o histórico completo de extração de dados.
  • Para editores: Aumente as taxas de rejeição de mesa para papéis de fórmula. Empregar revisores estatísticos dedicados. Use modelos para identificar manuscritos usando pipelines idênticos com apenas swaps variáveis.
  • Para revisores de pares: Trate o uso de análise de variável única para condições complexas como bandeira vermelha. Solicite esclarecimentos quando falta rigor estatístico ou subconjuntos de dados são pouco justificados.
  • Para a comunidade científica mais ampla: Envolva-se na revisão pós-publicação. Plataformas como o Pubpeer devem ser usadas ativamente para sinalizar práticas questionáveis, mesmo quando os métodos estatísticos parecem superficialmente sólidos.

Crédito da imagem em destaque

Tags: Ai

Related Posts

O seu parceiro de IA generativo super útil está tornando seu trabalho entediante?

O seu parceiro de IA generativo super útil está tornando seu trabalho entediante?

14 Maio 2025
Adele da Microsoft quer dar um perfil cognitivo à sua IA

Adele da Microsoft quer dar um perfil cognitivo à sua IA

14 Maio 2025
O artigo de pesquisa da Apple revela Matrix3D para geração de conteúdo 3D

O artigo de pesquisa da Apple revela Matrix3D para geração de conteúdo 3D

14 Maio 2025
Pesquisa: o padrão -ouro para avaliação de Genai

Pesquisa: o padrão -ouro para avaliação de Genai

12 Maio 2025
Ai finalmente resolve o quebra -cabeça mais difícil da biologia

Ai finalmente resolve o quebra -cabeça mais difícil da biologia

6 Maio 2025
A obra -prima de Raphael pode não ser toda a sua

A obra -prima de Raphael pode não ser toda a sua

5 Maio 2025

Recent Posts

  • Pronto para um chatgpt que realmente o conhece?
  • As ferramentas de pesquisa de IA podem estar criando mais problemas do que resolvem
  • O seu parceiro de IA generativo super útil está tornando seu trabalho entediante?
  • Adele da Microsoft quer dar um perfil cognitivo à sua IA
  • O artigo de pesquisa da Apple revela Matrix3D para geração de conteúdo 3D

Recent Comments

Nenhum comentário para mostrar.
Dataconomy PT

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.