LLM幻觉第一次被定义:你必须掌握的3个理论和能上手的4套工程解法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
LLM幻觉第一次被定义:你必须掌握的3个理论和能上手的4套工程解法
6011点击    2025-08-15 11:03

幻觉,作为AI圈家喻户晓的概念,这个词您可能已经听得耳朵起茧了。我们都知道它存在,也普遍接受了它似乎无法根除,是一个“老大难”问题。但正因如此,一个更危险的问题随之而来:当我们对幻觉的存在习以为常时,我们是否也开始对它背后的系统性风险变得麻木?我们是真的从第一性原理上理解了它,还是仅仅在用一个又一个的补丁(比如RAG)来被动地应对它?


LLM幻觉第一次被定义:你必须掌握的3个理论和能上手的4套工程解法


这正是这篇来自巴塞罗那大学(Universitat de Barcelona)的深度研究想要回答的核心问题。它不只是重复“幻觉不可避免”这个我们已经熟知的结论,而是深入到了问题的最底层,用严谨的计算理论和一份前所未有的完整“幻觉谱”,为我们揭示了它的系统性真相。这篇文章将带您深入这份研究,目的不是告诉您一个新秘密,而是帮助您将已经“知道”的事情,转化为真正“理解”的工程智慧,并最终在您的产品设计中,将幻觉从一个烦人的“Bug”,变成一个可以被精确管理和利用的、最重要的“边界条件”。


重新定义幻觉:来自计算理论


只要数据够好、模型够大,幻觉就不叫事,甚至有一天能被彻底根除,之前有相当一部分人这么认为,但研究者们给出了一个相当有冲击力的结论:对于任何基于现有计算范式的LLM,幻觉都是理论上不可避免的。为了让这个结论站得住脚,他们首先给“幻觉”下了一个非常严谨的定义。


LLM幻觉第一次被定义:你必须掌握的3个理论和能上手的4套工程解法


LLM幻觉第一次被定义:你必须掌握的3个理论和能上手的4套工程解法


研究者将问题抽象化:想象一个代表“绝对真理”的函数 f,对于任何问题 s,它总能给出唯一的正确答案 f(s)。而我们的LLM,则是一个试图学习并模仿 f 的可计算函数 h。基于此,幻觉的正式定义就清晰了:论文将幻觉定义为一个可计算的LLM(表示为 h)和一个可计算的“基准真相”函数(表示为 f)之间的不一致 。基准真相函数 f 代表了对于任何输入 s,都存在一个唯一正确的输出 f(s) 。如果一个LLM在所有训练阶段,对于至少一个输入 s,其输出 h(s) 不等于正确答案 f(s),那么这个LLM就被认为产生了幻觉。


那么,“不可避免”的结论又是如何得出的呢?这里研究者们动用了一个强大的数学工具,对角化论证(diagonalization argument)。这是一个由康托尔开创,后被哥德尔和图灵等人用来证明理论边界的经典方法。简单来说,研究者通过这个方法,构造出了一个理论上的“捣蛋”真相函数f,这个f被设计为永远与任何一个给定的LLM h 的输出不一致,从而证明了以下三个令人警醒的定理:


  • 定理一:任何可计算的LLM集合,都一定会产生幻觉。


  • 定理二:它们会在无穷多的问题上产生幻觉。


  • 定理三:任何单个LLM也无法避免幻觉。


这些定理导出了一个至关重要的推论:LLM无法通过自我反思来根除幻觉。这意味着,无论模型的“思考链”多复杂,它本质上仍是一个封闭的计算系统,无法跳出自身的局限来验证所有知识的真伪。所以LLM不是一个偶尔犯错的知识库,而是一个本质上无法保证绝对真实性的语言概率引擎。之前我也介绍过一个重要研究《实锤,我崩溃了,LLM根本无法100%根除幻觉


LLM幻觉第一次被定义:你必须掌握的3个理论和能上手的4套工程解法


LLM幻觉的定理与推论


幻觉的“千层套路”


幻觉的麻烦之处在于它表现形式多样,远不止是捏造事实那么简单,研究者们为此建立了一个相当完备的分类体系。理解这个图谱,是您识别并设计策略应对它的第一步。


核心分类:两个基本维度


研究者提出了两对核心的分类,帮助我们从根源上理解幻觉的性质。


内在幻觉 (Intrinsic) vs. 外在幻觉 (Extrinsic)


  • 内在幻觉是“自相矛盾”。比如,您让模型总结一段文字,原文说“A公司2020年创立”,模型的总结里却写“A公司2021年创立”,这种错误不需要外部知识,仅通过对比原文和生成内容就能发现。


  • 外在幻觉是“与世界不符”。比如,模型在回答中提到“爱因斯坦在2005年发表了关于引力波的论文”,这显然与我们世界的知识相悖,需要借助外部事实来验证。


事实性幻觉 (Factuality) vs. 忠实性幻觉 (Faithfulness)


  • 事实性幻觉就是我们常说的“不符合事实”。比如模型宣称“月球是奶酪做的”,这直接违背了客观的科学事实。


  • 忠实性幻觉则更为隐蔽,它是指“不忠于指令或原文”。论文中列个例子,让模型总结一篇指出“FDA于2019年批准了首个埃博拉疫苗”的文章,但模型总结成“FDA拒绝了该疫苗”。模型可能没有捏造外部世界不存在的事实,但它完全歪曲了您提供的信息,这在处理用户私有数据的场景里,风险真的太大了。


LLM幻觉第一次被定义:你必须掌握的3个理论和能上手的4套工程解法


LLM幻觉的综合分类法


具体表现:真实世界的“事故现场”


除了上述分类,论文还列举了大量真实世界中的幻觉案例,


  • 事实错误与捏造:这是最常见的类型,从Google Bard答错韦伯望远镜的首张系外行星照片,到律师使用ChatGPT引用完全不存在的法院判例而受到处罚,都属于此类。


  • 逻辑不一致:在逐步推理中出现计算错误,或者前后陈述逻辑冲突。比如在解数学题时,过程看似头头是道,但中间一步的计算却是错的。


  • 时间错乱:错误地将事件与时间匹配。例如,声称某位作家在他从未获奖的年份获得了诺贝尔奖。


  • 伦理违规:这是危害性最大的一类,包括生成诽谤性言论(如凭空捏造某教授的丑闻)、提供错误的财务或法律建议导致用户损失。


  • 特定任务幻觉


  • 代码生成:生成的代码看起来正确,但存在无法运行的bug或引入了安全漏洞。


  • 对话:在多轮对话中混淆人名或忘记之前的对话内容,出现“记忆错乱”。


  • 多模态:在描述图片时,识别出图片中并不存在的物体,即所谓的“物体幻觉”。


  • 混合幻觉 (Amalgamated Hallucinations):当模型试图整合多个信息点时,错误地将它们组合在一起,创造出一个看似合理但实际上是“拼凑谬误”的新事实。


  • 无意义回应 (Nonsensical Responses):在某些情况下,模型会生成与用户提问完全无关、毫无逻辑的内容,这暴露了它在特定上下文理解上的彻底失败。


AI为什么会产生幻觉?


那模型为什么会这样呢?最核心的原因,其实藏在它的工作原理里,自回归(Auto-regressive)。LLM的本质工作不是“理解并回答”,而是“预测下一个最可能的词”,它的第一目标永远是让句子读起来通顺、连贯,符合它在海量数据里学到的语言模式。至于这个句子是不是符合事实……那只是一个次要的、甚至是偶然达成的目标。


除此之外,研究者还总结了多个层面的原因:


  • 数据层面质量问题:训练数据本身就包含大量错误、噪声和过时的信息,模型只是“诚实”地学会了这些错误。


  • 知识边界:模型不知道自己“不知道什么”,当被问及超出其训练数据范围的问题时,它倾向于自信地“创作”答案,而不是承认无知。


  • 模型层面过度自信:模型缺乏有效的“不确定性”表达机制,即使在胡说八道时,其内部的置信度分数也可能非常高。


  • 推理能力缺失:LLM擅长的是模式匹配和统计关联,而非真正的因果或逻辑推理。


  • 暴露偏差 (Exposure Bias):在训练时,模型总是基于“标准答案”来预测下一个词;但在推理时,它却是基于“自己刚刚生成的词”。这种训练与推理条件的不一致,可能导致错误像滚雪球一样累积。


  • 解码策略 (Decoding Strategies):您在调用API时设置的参数,比如较高的“temperature”,会鼓励模型选择更多样化、更低概率的词,这在激发创造力的同时,也显著增加了偏离事实、产生幻觉的风险。


  • 提示层面对抗性攻击:用户可以在提示中故意嵌入虚假信息,诱导模型基于这些假信息进行扩展和发挥,上演一出“垃圾进,垃圾出”的戏码。


LLM幻觉第一次被定义:你必须掌握的3个理论和能上手的4套工程解法


LLM幻觉的根本原因


量化幻觉:工程师的评估基准与指标


既然我们理解了幻觉从定义到原因的全貌,那么一个非常实际的问题就摆在面前:在我的产品里,如何科学地衡量幻觉的严重程度?研究者们同样关注这个问题,并发展出了一系列评估基准和量化指标,这为我们提供了评估自家系统幻觉水平的武器。


关键评估基准(Benchmark Datasets)


您可以把这些基准看作是精心设计的“考卷”,专门用来检测模型在特定方面的幻觉倾向。


  • TruthfulQA:这份“考卷”非常特别,它专门出一些人类容易答错的、基于普遍误解的问题。它的目的不是考模型知识多渊博,而是看模型能否在面对诱导性问题时,坚持事实,而不是顺着错误的预设“胡说八道”。


  • HalluLens:这是一个更全面的诊断工具,它不仅检测幻觉,还会根据我们之前提到的分类法(如事实性、伦理、逻辑等)给幻觉打上标签。这能帮助您更精细地了解您的模型主要在哪类问题上容易“翻车”。


  • FActScore:这个工具专注于评估长文本生成(比如文章摘要)中的事实一致性。它会逐句检查生成的内容,看每一句话是否都能在原文中找到依据,对于需要高度忠实原文的场景来说,这是一个利器。


  • 领域专用基准:研究者还开发了针对特定领域的“专业级考卷”,例如面向医疗领域的 MedHallu 和代码领域的 CodeHaluEval,这些对于正在开发垂直领域应用的您来说,参考价值极高。


核心量化指标(Quantitative Metrics)


如果说基准是“考卷”,那指标就是“评分标准”,它们试图用一个分数来量化幻觉的程度。


  • 传统指标的局限:像 ROUGEBLEU 这类计算词语重合度的传统指标,在幻觉检测上已经力不从心。一个回答可能和标准答案用词很像,但意思却可能完全相反。


  • 基于自然语言推理(NLI)的指标:这是目前更前沿的思路。像 SummaC 这样的指标,它会判断“模型生成的一句话”与“原文”之间的逻辑关系是“蕴含”、“矛盾”还是“无关”。如果判定为“矛盾”,那基本就可以断定为幻觉了。


  • 人类评估:尽管有各种自动化工具,但研究者们承认,人类评估至今仍然是检测幻觉的“黄金标准”。因为只有人类才能理解那些微妙的、深层次的逻辑和事实错误,但这显然成本高昂且难以规模化。


保持前沿:追踪幻觉的真实世界资源


除了使用静态的基准测试,了解当前各大顶尖模型在真实世界中的幻觉表现也同样重要。论文的第9节为我们指明了几个可以持续关注的前沿阵地,它们就像LLM领域的“专业测评网站”。


  • Vectara Hallucination Leaderboard:这是为数不多的、直接以“幻觉率”为核心指标的公开排行榜。它专注于摘要任务,定期发布各大主流模型(如GPT系列、Claude系列)在同样测试集下的幻觉表现,非常直观。


LLM幻觉第一次被定义:你必须掌握的3个理论和能上手的4套工程解法


Vectara的Grounded Hallucination评估模型得分(越高越好)


  • Artificial Analysis:这是一个综合性的模型性能评测网站。虽然不直接测量幻觉,但它提供的“智能指数”(综合了推理、代码、数学能力)和详尽的成本、延迟数据,可以帮助您从侧面判断一个模型的综合素质,通常综合素质越高的模型,幻觉控制也做得越好。


LLM幻觉第一次被定义:你必须掌握的3个理论和能上手的4套工程解法


Artificial Analysis的AI智能指数(越高越好)


  • Epoch AI Dashboard:这个由非营利组织维护的平台,强项在于追踪AI能力发展的宏观趋势。您可以在上面看到模型性能与计算量、开源与闭源模型之间的差距、不同地区模型的发展状况等。这些宏观视角能帮助您理解幻觉问题在整个行业发展中的位置。


LLM幻觉第一次被定义:你必须掌握的3个理论和能上手的4套工程解法


图9: 模型准确率与训练计算量的关系


  • LM Arena (Chatbot Arena):这是一个非常有趣的平台,它通过让用户“盲投”的方式,对两个匿名的模型进行两两对决,最终形成一个由大量真实用户偏好决定的排行榜。这个排名很大程度上反映了哪个模型用起来“感觉更爽、更靠谱”,而一个不频繁产生幻觉的模型,显然更容易获得用户的青睐。


LLM幻觉第一次被定义:你必须掌握的3个理论和能上手的4套工程解法


LM Arena文本生成模型排行榜


工程师的工具箱


研究者们总结了目前最有效的几套“组合拳”,思路核心是从“试图让模型变完美”转向“为不完美的模型建立安全护栏”。


  • 检索增强生成(RAG):这可能是您最需要关注的技术。不要让模型完全依赖自己“记住”的知识,而是让它在回答前,先去您指定的、可信的知识库(比如产品文档、技术手册)里查找资料,然后依据这些资料来回答。这相当于给模型开了一本“开卷考试”,能大幅减少事实性错误。


  • 工具使用(Tool-use):让模型学会“摇人”,遇到自己不擅长的事就调用外部API。比如,计算任务交给计算器、实时信息交给搜索引擎,这样总比它自己瞎猜要靠谱得多。


  • 系统级护栏(Guardrails):在模型的输出端建立一个“质检部门”。通过设置规则、关键词过滤、事实校验等方式,拦截那些不合规或高风险的回答,并在必要时触发“拒绝回答”或“转人工”等备用方案。


写在最后


最后,研究者发现,幻觉之所以危险,一半“功劳”要归于模型,另一半则要归于我们自己。因为模型的回答通常语法完美、语气自信,我们的大脑会下意识地认为它很可信,这就是所谓的自动化偏见。更要命的是,如果模型说的恰好符合我们的猜想,确认偏见会让我们毫不犹豫地接受它的答案,哪怕它是个彻头彻尾的幻觉。


文章来自于微信公众号“AI修猫Prompt”。


关键词: AI , 模型训练 , 幻觉 , 人工智能
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。

项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file

本地安装:https://www.deepbi.com/

【开源免费airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。

项目地址:https://github.com/hitsz-ids/airda

2
知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。

项目地址:https://github.com/labring/FastGPT

3
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI

4
AI搜索

【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。

项目地址:https://github.com/InternLM/MindSearch

在线使用:https://mindsearch.openxlab.org.cn/


【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。

项目地址:https://github.com/miurla/morphic/tree/main

在线使用:https://www.morphic.sh/

5
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0