ICLR 2026还会好吗？300篇投稿50篇含幻觉，引用example.com竟也能过审

9900点击 2025-12-09 11:02

这届 ICLR 的烦心事还没有结束。

最近一段时间，对于 ICLR 2026 来说，真可谓是一波未平、一波又起。先是第三方机构对审稿意见的系统性统计发现，其中有 21% 完全由 AI 生成；后有 OpenReview 评审大开盒，波及到了 ICLR 2026 超过 10000 篇投稿。

今天，ICLR 2026 的审稿又被揭开一块遮羞布。事情是这样的：AI 生成内容检测平台 GPTZero 扫描了 300 篇投稿论文，发现其中有 50 篇在论文引用上至少包含一处明显的幻觉内容。

甚至有些幻觉引用还非常离谱，达到了匪夷所思的程度，就好像投稿者完全不检查一样。比如下面 GPTZero CTO 和联创 Alex Cui 在 X 分享的这个例子，投稿者给出的引用链接竟然是默认示例链接 example.com ！

ICLR 2026还会好吗？300篇投稿50篇含幻觉，引用example.com竟也能过审

而在下面的例子中，作者名单就只是一串大写字母。

ICLR 2026还会好吗？300篇投稿50篇含幻觉，引用example.com竟也能过审

更令人担忧的是，这些存在幻觉内容的投稿已经经过了 3-5 名领域专家的同行评审，但他们中的绝大多数都未能识别出这些虚假的引用。

这意味着，如果这些投稿没有其他外部干预，就可能会被 ICLR 会议接收。部分投稿的平均分甚至达到了 8/10，这几乎可以确保它们被录用。

在实操过程中，GPTZero 列出了每篇论文中由检测工具标记、并由人工核实的具体幻觉示例。如下两篇论文，第一篇（TamperTok）的一篇引用论文确实存在，但所有作者都错了；第二篇（MixtureVitae）的一篇引用论文的前 3 位作者信息正确，而后七位作者不在论文中甚至是虚构出来的。

ICLR 2026还会好吗？300篇投稿50篇含幻觉，引用example.com竟也能过审

甚至还有「不存在的论文引用」。

ICLR 2026还会好吗？300篇投稿50篇含幻觉，引用example.com竟也能过审

50 篇存在幻觉内容的投稿完整如下：

ICLR 2026还会好吗？300篇投稿50篇含幻觉，引用example.com竟也能过审

存在幻觉的地方还包括：

作者和会议信息与引用论文相符，但标题略有不同，年份也有误；
arXiv ID 是真实的，但引用论文的作者和标题都不同；
引用论文存在，但是作者和页码都是错误的；
能找到与 URL 对应的引用论文，但作者不匹配。

GPTZero 表示，根据 ICLR 的编辑政策，即使只有一处明确的幻觉内容，也构成伦理违规，可能导致论文被拒稿。「我们目前只扫描了 2 万篇投稿中的 300 篇，我们预计在未来几天内将发现数百篇包含幻觉内容的论文。」

科学期刊与学术会议已在 AI 重压下不堪重负

GPTZero 表示：「学期刊和学术会议正被生成式 AI、论文工厂（paper mills）和发表压力引发的投稿狂潮压垮。」

据统计，2016 年至 2024 年间，每年发表的科学文章数量激增了 48%，与此同时，撤稿和其他学术丑闻也层出不穷。许多科学会议和期刊都在苦于寻找合格的同行评审员，而评审员们则因日益增加的时间需求而感到「不堪重负」。

像 ICLR 这样的学术会议也面临着巨大的压力。ICLR 是全球最重要的人工智能研究人员年度盛会之一，然而最近许多会议投稿和同行评审都显示出 AI 撰写的迹象。这些迹象从行文冗长、滥用列举项，到伪造数据和「幻觉」，不一而足。

「幻觉检测」发现了什么？

GPTZero 表示，自今年 1 月推出「幻觉检测」（Hallucination Check）工具以来，他们已经测试了小罗伯特・肯尼迪（RFK Jr.）的「MAHA」报告、一份丑闻缠身的澳大利亚德勤（Deloitte Australia）报告以及数百份其他文件。

本周，他们用它扫描了提交给 OpenReview 的 300 篇 ICLR 论文样本集。

自动检测后，他们的工具标记了 90 篇论文，这些论文中至少包含一条在网上似乎不存在的引用。

经过人工核实，他们确定其中 50 篇论文至少包含一处真实的幻觉。

定义「幻觉」

鉴于问题的严重性 —— 毕竟这对研究人员和编辑都利害攸关，幻觉检测工具在设计上必须优先考虑准确性，提供每个来源评估的透明度，并采取审慎的态度。

GPTZero 在博客中介绍说：「它使用我们内部训练的 AI 智能体来标记文档中任何无法在网上找到的引用。这些被标记的引用并不自动等同于幻觉，因为许多档案文件或未发表的作品无法与在线来源匹配，但它们指出了哪些来源需要进一步的人工审查。」

与 ICLR 一样，GPTZero 提议由人工来判断一条有缺陷的引用究竟是 AI 生成的，还是传统错误的产物。

虽然界限可能很模糊，但他们将「幻觉」定义为：使用生成式 AI 产生的引用，这些引用似乎是对一个或多个真实来源的标题、作者和/或元数据进行了改写或拼凑。

如果一条有缺陷的引用只是单纯在网上找不到（且看起来合理，比如这个引用 Elara Voss, letter to author, October 12, 2024.），或者标题和作者明显与真实来源匹配（即使引用的其余部分极不准确），都不认为它是幻觉。

下表展示了基于以上方法论，真实引用、有缺陷的引用和幻觉引用之间的区别。（注：原文中差异部分以红色高亮显示，此处以文字内容呈现）。

ICLR 2026还会好吗？300篇投稿50篇含幻觉，引用example.com竟也能过审

类似于 GPTZero 的 AI 检测器，幻觉检测工具的假阴性率（漏报率）极低 —— 成功发现有缺陷引用的概率可达 99%。

并且由于此工具会标记任何无法在线验证的引用，因此假阳性率（误报率）会相对较高。

同行评审的未来

同行评审是学术出版的重要组成部分，但目前的体系让评审员和编辑们有些难以招架。

GPTZero 的幻觉检测为同行评审流程提供了两个关键益处。

将幻觉检测与 GPTZero 的 AI 检测器结合使用，允许用户同时检查 AI 生成的文本和可疑引用，甚至利用其中一个结果来验证另一个。
通过识别有缺陷的引用供人工审查，幻觉检测大大减少了验证文档来源所需的时间和人力。

GPTZero 表示：「我们希望，在 50 篇 ICLR 投稿中识别出这 50 个幻觉，能向那些面对投稿狂潮的人们展示幻觉检测的价值。我们的目标是让同行评审过程对每个人都更快、更公平、更透明。」

结语

如果在 AI 领域的顶级殿堂里，连基本的真实性都需要依靠另一款 AI 工具来艰难维系，这无疑是一种巨大的讽刺。

ICLR 的遭遇并非孤例，它是当下学术界大炼模型与发表压力双重挤压下的必然产物。

当生成一篇看似专业的论文只需要几秒钟，而验证它的真伪却需要耗费数小时，这种不对称的对抗正在击穿同行评审的防线。那些高达 8 分的幻觉论文，就像是潜伏在学术共同体中的特洛伊木马，嘲笑着现有的评价体系。

GPTZero 的检测结果是一个警告，也是一个契机。它提醒我们，在拥抱 AI 带来的效率红利时，必须建立起与之匹配的数字安检机制。否则，未来的学术会议可能不再是思想碰撞的火花，而变成了一场 AI 生成内容（AIGC）的自我狂欢。

我们期待 ICLR 能挺过这次水逆，但更期待整个学术界能以此为鉴：不要让劣币驱逐良币，更不要让幻觉成为常态。

参考链接：

https://gptzero.me/news/iclr-2026/

https://x.com/yaroslavvb/status/1997748956210868641

https://x.com/slashML/status/1997719788160954547

https://x.com/alexcdot/status/1997152905980268750

文章来自于“机器之心”，作者 “杜伟、Panda”。

关键词: AI新闻 , AI学术 , AI论文 , AI顶会

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md