LLM幻觉第一次被定义：你必须掌握的3个理论和能上手的4套工程解法

7458点击 2025-08-15 11:03

幻觉，作为AI圈家喻户晓的概念，这个词您可能已经听得耳朵起茧了。我们都知道它存在，也普遍接受了它似乎无法根除，是一个“老大难”问题。但正因如此，一个更危险的问题随之而来：当我们对幻觉的存在习以为常时，我们是否也开始对它背后的系统性风险变得麻木？我们是真的从第一性原理上理解了它，还是仅仅在用一个又一个的补丁（比如RAG）来被动地应对它？

这正是这篇来自巴塞罗那大学（Universitat de Barcelona）的深度研究想要回答的核心问题。它不只是重复“幻觉不可避免”这个我们已经熟知的结论，而是深入到了问题的最底层，用严谨的计算理论和一份前所未有的完整“幻觉谱”，为我们揭示了它的系统性真相。这篇文章将带您深入这份研究，目的不是告诉您一个新秘密，而是帮助您将已经“知道”的事情，转化为真正“理解”的工程智慧，并最终在您的产品设计中，将幻觉从一个烦人的“Bug”，变成一个可以被精确管理和利用的、最重要的“边界条件”。

重新定义幻觉：来自计算理论

只要数据够好、模型够大，幻觉就不叫事，甚至有一天能被彻底根除，之前有相当一部分人这么认为，但研究者们给出了一个相当有冲击力的结论：对于任何基于现有计算范式的LLM，幻觉都是理论上不可避免的。为了让这个结论站得住脚，他们首先给“幻觉”下了一个非常严谨的定义。

LLM幻觉第一次被定义：你必须掌握的3个理论和能上手的4套工程解法

研究者将问题抽象化：想象一个代表“绝对真理”的函数 f，对于任何问题 s，它总能给出唯一的正确答案 f(s)。而我们的LLM，则是一个试图学习并模仿 f 的可计算函数 h。基于此，幻觉的正式定义就清晰了：论文将幻觉定义为一个可计算的LLM（表示为 h）和一个可计算的“基准真相”函数（表示为 f）之间的不一致。基准真相函数 f 代表了对于任何输入 s，都存在一个唯一正确的输出 f(s) 。如果一个LLM在所有训练阶段，对于至少一个输入 s，其输出 h(s) 不等于正确答案 f(s)，那么这个LLM就被认为产生了幻觉。

那么，“不可避免”的结论又是如何得出的呢？这里研究者们动用了一个强大的数学工具，对角化论证（diagonalization argument）。这是一个由康托尔开创，后被哥德尔和图灵等人用来证明理论边界的经典方法。简单来说，研究者通过这个方法，构造出了一个理论上的“捣蛋”真相函数f，这个f被设计为永远与任何一个给定的LLM h 的输出不一致，从而证明了以下三个令人警醒的定理：

定理一：任何可计算的LLM集合，都一定会产生幻觉。

定理二：它们会在无穷多的问题上产生幻觉。

定理三：任何单个LLM也无法避免幻觉。

这些定理导出了一个至关重要的推论：LLM无法通过自我反思来根除幻觉。这意味着，无论模型的“思考链”多复杂，它本质上仍是一个封闭的计算系统，无法跳出自身的局限来验证所有知识的真伪。所以LLM不是一个偶尔犯错的知识库，而是一个本质上无法保证绝对真实性的语言概率引擎。之前我也介绍过一个重要研究《实锤，我崩溃了，LLM根本无法100%根除幻觉》

LLM幻觉第一次被定义：你必须掌握的3个理论和能上手的4套工程解法

LLM幻觉的定理与推论

幻觉的“千层套路”

幻觉的麻烦之处在于它表现形式多样，远不止是捏造事实那么简单，研究者们为此建立了一个相当完备的分类体系。理解这个图谱，是您识别并设计策略应对它的第一步。

核心分类：两个基本维度

研究者提出了两对核心的分类，帮助我们从根源上理解幻觉的性质。

内在幻觉 (Intrinsic) vs. 外在幻觉 (Extrinsic)

内在幻觉是“自相矛盾”。比如，您让模型总结一段文字，原文说“A公司2020年创立”，模型的总结里却写“A公司2021年创立”，这种错误不需要外部知识，仅通过对比原文和生成内容就能发现。

外在幻觉是“与世界不符”。比如，模型在回答中提到“爱因斯坦在2005年发表了关于引力波的论文”，这显然与我们世界的知识相悖，需要借助外部事实来验证。

事实性幻觉 (Factuality) vs. 忠实性幻觉 (Faithfulness)

事实性幻觉就是我们常说的“不符合事实”。比如模型宣称“月球是奶酪做的”，这直接违背了客观的科学事实。

忠实性幻觉则更为隐蔽，它是指“不忠于指令或原文”。论文中列个例子，让模型总结一篇指出“FDA于2019年批准了首个埃博拉疫苗”的文章，但模型总结成“FDA拒绝了该疫苗”。模型可能没有捏造外部世界不存在的事实，但它完全歪曲了您提供的信息，这在处理用户私有数据的场景里，风险真的太大了。

LLM幻觉第一次被定义：你必须掌握的3个理论和能上手的4套工程解法

LLM幻觉的综合分类法

具体表现：真实世界的“事故现场”

除了上述分类，论文还列举了大量真实世界中的幻觉案例，

事实错误与捏造：这是最常见的类型，从Google Bard答错韦伯望远镜的首张系外行星照片，到律师使用ChatGPT引用完全不存在的法院判例而受到处罚，都属于此类。

逻辑不一致：在逐步推理中出现计算错误，或者前后陈述逻辑冲突。比如在解数学题时，过程看似头头是道，但中间一步的计算却是错的。

时间错乱：错误地将事件与时间匹配。例如，声称某位作家在他从未获奖的年份获得了诺贝尔奖。

伦理违规：这是危害性最大的一类，包括生成诽谤性言论（如凭空捏造某教授的丑闻）、提供错误的财务或法律建议导致用户损失。

特定任务幻觉：

代码生成：生成的代码看起来正确，但存在无法运行的bug或引入了安全漏洞。

对话：在多轮对话中混淆人名或忘记之前的对话内容，出现“记忆错乱”。

多模态：在描述图片时，识别出图片中并不存在的物体，即所谓的“物体幻觉”。

混合幻觉 (Amalgamated Hallucinations)：当模型试图整合多个信息点时，错误地将它们组合在一起，创造出一个看似合理但实际上是“拼凑谬误”的新事实。

无意义回应 (Nonsensical Responses)：在某些情况下，模型会生成与用户提问完全无关、毫无逻辑的内容，这暴露了它在特定上下文理解上的彻底失败。

AI为什么会产生幻觉？

那模型为什么会这样呢？最核心的原因，其实藏在它的工作原理里，自回归（Auto-regressive）。LLM的本质工作不是“理解并回答”，而是“预测下一个最可能的词”，它的第一目标永远是让句子读起来通顺、连贯，符合它在海量数据里学到的语言模式。至于这个句子是不是符合事实……那只是一个次要的、甚至是偶然达成的目标。

除此之外，研究者还总结了多个层面的原因：

数据层面质量问题：训练数据本身就包含大量错误、噪声和过时的信息，模型只是“诚实”地学会了这些错误。

知识边界：模型不知道自己“不知道什么”，当被问及超出其训练数据范围的问题时，它倾向于自信地“创作”答案，而不是承认无知。

模型层面过度自信：模型缺乏有效的“不确定性”表达机制，即使在胡说八道时，其内部的置信度分数也可能非常高。

推理能力缺失：LLM擅长的是模式匹配和统计关联，而非真正的因果或逻辑推理。

暴露偏差 (Exposure Bias)：在训练时，模型总是基于“标准答案”来预测下一个词；但在推理时，它却是基于“自己刚刚生成的词”。这种训练与推理条件的不一致，可能导致错误像滚雪球一样累积。

解码策略 (Decoding Strategies)：您在调用API时设置的参数，比如较高的“temperature”，会鼓励模型选择更多样化、更低概率的词，这在激发创造力的同时，也显著增加了偏离事实、产生幻觉的风险。

提示层面对抗性攻击：用户可以在提示中故意嵌入虚假信息，诱导模型基于这些假信息进行扩展和发挥，上演一出“垃圾进，垃圾出”的戏码。

LLM幻觉第一次被定义：你必须掌握的3个理论和能上手的4套工程解法

LLM幻觉的根本原因

量化幻觉：工程师的评估基准与指标

既然我们理解了幻觉从定义到原因的全貌，那么一个非常实际的问题就摆在面前：在我的产品里，如何科学地衡量幻觉的严重程度？研究者们同样关注这个问题，并发展出了一系列评估基准和量化指标，这为我们提供了评估自家系统幻觉水平的武器。

关键评估基准（Benchmark Datasets）

您可以把这些基准看作是精心设计的“考卷”，专门用来检测模型在特定方面的幻觉倾向。

TruthfulQA：这份“考卷”非常特别，它专门出一些人类容易答错的、基于普遍误解的问题。它的目的不是考模型知识多渊博，而是看模型能否在面对诱导性问题时，坚持事实，而不是顺着错误的预设“胡说八道”。

HalluLens：这是一个更全面的诊断工具，它不仅检测幻觉，还会根据我们之前提到的分类法（如事实性、伦理、逻辑等）给幻觉打上标签。这能帮助您更精细地了解您的模型主要在哪类问题上容易“翻车”。

FActScore：这个工具专注于评估长文本生成（比如文章摘要）中的事实一致性。它会逐句检查生成的内容，看每一句话是否都能在原文中找到依据，对于需要高度忠实原文的场景来说，这是一个利器。

领域专用基准：研究者还开发了针对特定领域的“专业级考卷”，例如面向医疗领域的 MedHallu 和代码领域的 CodeHaluEval，这些对于正在开发垂直领域应用的您来说，参考价值极高。

核心量化指标（Quantitative Metrics）

如果说基准是“考卷”，那指标就是“评分标准”，它们试图用一个分数来量化幻觉的程度。

传统指标的局限：像 ROUGE、BLEU 这类计算词语重合度的传统指标，在幻觉检测上已经力不从心。一个回答可能和标准答案用词很像，但意思却可能完全相反。

基于自然语言推理（NLI）的指标：这是目前更前沿的思路。像 SummaC 这样的指标，它会判断“模型生成的一句话”与“原文”之间的逻辑关系是“蕴含”、“矛盾”还是“无关”。如果判定为“矛盾”，那基本就可以断定为幻觉了。

人类评估：尽管有各种自动化工具，但研究者们承认，人类评估至今仍然是检测幻觉的“黄金标准”。因为只有人类才能理解那些微妙的、深层次的逻辑和事实错误，但这显然成本高昂且难以规模化。

保持前沿：追踪幻觉的真实世界资源

除了使用静态的基准测试，了解当前各大顶尖模型在真实世界中的幻觉表现也同样重要。论文的第9节为我们指明了几个可以持续关注的前沿阵地，它们就像LLM领域的“专业测评网站”。

Vectara Hallucination Leaderboard：这是为数不多的、直接以“幻觉率”为核心指标的公开排行榜。它专注于摘要任务，定期发布各大主流模型（如GPT系列、Claude系列）在同样测试集下的幻觉表现，非常直观。

LLM幻觉第一次被定义：你必须掌握的3个理论和能上手的4套工程解法

Vectara的Grounded Hallucination评估模型得分（越高越好）

Artificial Analysis：这是一个综合性的模型性能评测网站。虽然不直接测量幻觉，但它提供的“智能指数”（综合了推理、代码、数学能力）和详尽的成本、延迟数据，可以帮助您从侧面判断一个模型的综合素质，通常综合素质越高的模型，幻觉控制也做得越好。

LLM幻觉第一次被定义：你必须掌握的3个理论和能上手的4套工程解法

Artificial Analysis的AI智能指数（越高越好）

Epoch AI Dashboard：这个由非营利组织维护的平台，强项在于追踪AI能力发展的宏观趋势。您可以在上面看到模型性能与计算量、开源与闭源模型之间的差距、不同地区模型的发展状况等。这些宏观视角能帮助您理解幻觉问题在整个行业发展中的位置。

LLM幻觉第一次被定义：你必须掌握的3个理论和能上手的4套工程解法

图9: 模型准确率与训练计算量的关系

LM Arena (Chatbot Arena)：这是一个非常有趣的平台，它通过让用户“盲投”的方式，对两个匿名的模型进行两两对决，最终形成一个由大量真实用户偏好决定的排行榜。这个排名很大程度上反映了哪个模型用起来“感觉更爽、更靠谱”，而一个不频繁产生幻觉的模型，显然更容易获得用户的青睐。

LLM幻觉第一次被定义：你必须掌握的3个理论和能上手的4套工程解法

LM Arena文本生成模型排行榜

工程师的工具箱

研究者们总结了目前最有效的几套“组合拳”，思路核心是从“试图让模型变完美”转向“为不完美的模型建立安全护栏”。

检索增强生成（RAG）：这可能是您最需要关注的技术。不要让模型完全依赖自己“记住”的知识，而是让它在回答前，先去您指定的、可信的知识库（比如产品文档、技术手册）里查找资料，然后依据这些资料来回答。这相当于给模型开了一本“开卷考试”，能大幅减少事实性错误。

工具使用（Tool-use）：让模型学会“摇人”，遇到自己不擅长的事就调用外部API。比如，计算任务交给计算器、实时信息交给搜索引擎，这样总比它自己瞎猜要靠谱得多。

系统级护栏（Guardrails）：在模型的输出端建立一个“质检部门”。通过设置规则、关键词过滤、事实校验等方式，拦截那些不合规或高风险的回答，并在必要时触发“拒绝回答”或“转人工”等备用方案。

写在最后

最后，研究者发现，幻觉之所以危险，一半“功劳”要归于模型，另一半则要归于我们自己。因为模型的回答通常语法完美、语气自信，我们的大脑会下意识地认为它很可信，这就是所谓的自动化偏见。更要命的是，如果模型说的恰好符合我们的猜想，确认偏见会让我们毫不犹豫地接受它的答案，哪怕它是个彻头彻尾的幻觉。

文章来自于微信公众号“AI修猫Prompt”。

关键词: AI , 模型训练 , 幻觉 , 人工智能

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址：https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装：https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体，能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址：https://github.com/hitsz-ids/airda

知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目，提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信，飞书的AI项目都基于该项目二次开发。
项目地址：https://github.com/labring/FastGPT

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。
项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。
项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目
项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。
项目地址：https://github.com/TaskingAI/TaskingAI

AI搜索

【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架，其性能可与 Perplexity和ChatGPT-Web相媲美。
项目地址：https://github.com/InternLM/MindSearch
在线使用：https://mindsearch.openxlab.org.cn/

【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费，搜索结果包含文本，图片，视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目，测试搜索结果最好。
项目地址：https://github.com/miurla/morphic/tree/main
在线使用：https://www.morphic.sh/

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0