一个数据集,一年产稿7876篇!AI强力加持,垃圾论文海量爆发

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一个数据集,一年产稿7876篇!AI强力加持,垃圾论文海量爆发
7151点击    2025-06-16 17:10

假如你是一位科研期刊的编辑,每天打开邮箱,迎接的却是一堆似曾相识的论文。


它们主题各异,数据整齐,措辞流畅,但总有种让人不安的「模板感」。


这可不是一个瞎编的场景,而是2024年发生在《Scientific Reports》编辑Matt Spick身上的真实经历。


作为英国萨里大学的统计学家,他发现大量论文像流水线产品般涌来,全部基于美国国家健康与营养检查调查(NHANES)这一公共数据集。


「我收到的几乎一模一样的论文太多了,有时一天一篇,有时两天三篇,」Spick无奈地说,「这不太对劲」。


近日,Science网站的一篇文章详细详细描述了这个事实。


一个数据集,一年产稿7876篇!AI强力加持,垃圾论文海量爆发

文章地址:https://www.science.org/content/article/low-quality-papers-are-surging-exploiting-public-data-sets-and-ai


Spick发现,他所在期刊遇到的问题只是冰山一角。


这些论文并非孤立现象,而是席卷全球学术界的一场「科研填空游戏」


上周,他与同事在《PLOS Biology》杂志上发表的研究指出,近年来,使用NHANES的低质量论文数量激增。


一个数据集,一年产稿7876篇!AI强力加持,垃圾论文海量爆发


论文地址:https://journals.plos.org/plosbiology/article?id=10.1371/journal.pbio.3003152


NHANES的「魔力」与「陷阱」


NHANES是一个庞大的公共数据集,涵盖了超过13万人的健康检查、血液检测和饮食信息。


它的开放性让研究者可以轻松挖掘数据,探索健康与疾病的关系。


然而,这种便利也成了双刃剑。


Spick发现,这些NHANES论文遵循一个简单的「公式」:选择一种健康状况(比如抑郁症)、一个可能相关的环境或生理因素(比如维生素D水平),再限定一个人群(比如65岁以上男性)。通过排列组合,研究者能迅速生成「新发现」。


「感觉好像所有可能的组合都被人研究过了」Spick说。


西北大学的元科学家Reese Richardson将其形象地称之为「科研填空游戏」。


他提到,其他研究者在不少领域也发现了类似的「爆发式增长」,比如基因研究、文献计量分析,还有不同科学学科里的性别差异研究。


为了量化这一现象,Spick团队在PubMed和Scopus两大数据库中搜索基于NHANES的单变量关联研究。


他们在147种期刊中发现了341篇这样的论文,包括《Scientific Reports》、《BMC Public Health》及《BMJ Open》。


结果令人震惊:2014年至2021年,这类论文年均仅4篇,但2022年起数量激增,2024年截至10月已达190篇,远超其他大型健康数据集研究的增长速度。


更令人担忧的是,其中的许多论文选择性地分析数据,比如只用某些年份或年龄段的数据,缺乏明确理由。


这背后往往是「p值狩猎」——通过反复尝试找到统计上显著的结果,哪怕这些结果可能是虚假的。


以抑郁症相关研究为例,Spick团队分析了28篇NHANES论文,发现在对多重检验结果进行假发现率(FDR)校正后,仅有 13 项关联仍保持统计学显著性。


这意味着一半以上的「发现」可能是统计噪声,而非真相。


Spick和他的团队甚至认为,他们的分析可能还大大低估了问题的严重性。


他们的搜索只针对符合Spick模式的NHANES研究,更广泛的搜索发现,使用NHANES数据集的论文从2023年的4926篇激增到2024年的7876篇。


Spick还指出,其他大型健康数据集,比如全球疾病负担研究,同样可能存在类似漏洞。


AI与论文工厂的「共谋」


为什么NHANES论文会在2022年后井喷?


答案指向了一个时间点:AI工具如ChatGPT的广泛普及。


这些工具能根据简单指令生成流畅文本,甚至通过改写来逃避抄袭检测。


悉尼大学的分子生物学家Jennifer Byrne在审稿时指出,这种论文的「规模和时机」让人怀疑背后有协调运作,论文工厂(paper mills)可能是幕后推手。


论文工厂是专门出售论文署名权的商业机构。它们利用AI快速生成论文框架,再结合NHANES等公共数据集的便利性,生产出看似合法的论文。


Spick团队甚至编写了一段简单的Python代码,就能从NHANES中提取数据并「批量生成」疾病与健康变量的组合。


这种「工业化」生产模式让低质量论文如洪水般涌入学术期刊。


「老实说,这让我气得跳脚。」Spick表示。


哲学家Hannah Arendt曾提出「平庸之恶」的概念,形容那些在体制下机械执行恶行的行为。


今天的论文工厂何尝不是一种「平庸之恶」?它们未必有意破坏科学,但机械化的论文生产,悄然侵蚀了学术的根基。


扭曲之镜


这场「科研填空游戏」的根源不仅在于技术和数据,还在于学术生态的扭曲。


Richardson一针见血地指出:「所有被点名的期刊都收取了约1000美元的发表费用,来刊登这些垃圾论文。」


开放获取期刊(如《PLOS Biology》)通过作者付费实现免费阅读,但这也让一些期刊更看重数量而非质量。


更深层的问题是科研评价体系。


许多高校和机构以论文数量作为晋升和资助的主要标准,而非论文的质量或影响力。


在「发表即成功」的文化下,研究者只能制造出更多论文,哪怕这些论文毫无意义。


但当科研变成填空游戏,研究者很难从中找到意义。相反,他们被困在一个循环中:不断生产「成果」,即使这些成果可能只是学术垃圾。


当论文成为KPI,科学便从探索真理沦为数字游戏。


破局之道


这场危机并非无解。


Spick建议,期刊应加强对NHANES等公共数据集论文的审查,比如要求作者明确数据选择的理由,并进行更严格的统计校正。Byrne则呼吁开发更智能的检测工具,以识别AI生成的文本。


更根本的改变需要重塑学术激励机制。


Richardson警告:「除非我们彻底改革科研发表的激励模式,否则问题只会更糟」。


这场「科研填空游戏」更像是一面镜子,映照出技术进步与学术伦理的碰撞。


AI和公共数据集本应是科学的加速器,却在扭曲的激励下成了垃圾论文的温床。


参考资料:

https://www.science.org/content/article/low-quality-papers-are-surging-exploiting-public-data-sets-and-ai


文章来自公众号“新智元

关键词: AI , AI学术 , NHANES , 数据集
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。

项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file

本地安装:https://www.deepbi.com/

【开源免费airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。

项目地址:https://github.com/hitsz-ids/airda