是RAG已死，还是RAG Anything，All in RAG？

6588点击 2025-10-20 12:08

每隔一阵子，总有人宣告“RAG已死”：上下文越来越长、端到端多模态模型越来越强，好像不再需要检索与证据拼装。但真正落地到复杂文档与可溯源场景，你会发现死掉的只是“只切文本的旧RAG”。当图、表、公式与文本被统一拆解并纳入同一套结构化索引与混合检索链路时，RAG不但没死，反而进化为RAG Anything！把一切可证据化，All in RAG。

这篇文章面向正在落地人工智能产品的您，我会以直接的工程视角，解读GitHub上8.7kstar的RAG‑Anything，包括它到底在解决什么问题、三大技术组件与整体流程、关键实现细节、实验与评测、消融实验、案例研究、相关工作、结论与落地建议；我尽量把每一步的操作方式说透，同时避免堆术语，让您能把这套方法搬进真实系统中。虽然内容密集，但结构是清晰的，您可以按章节跳读……不过我更建议从头看完，这样您会更快建立完整的实现图景。

总体框架：三大组件与端到端流程

整体由三大组件首尾相接构成一条可落地的工程流水线：通用表示与索引把异构内容拆成带结构的原子单元并建立统一索引，跨模态混合检索用“结构导航＋语义匹配”两路并行找齐证据，证据综合生成在结构化文本上下文里“回填”原始视觉内容后交给视觉语言模型联合推理。运行顺序并不复杂，但各环节要配合默契：解析阶段产出可建图的锚点与边，索引阶段生成图结构与向量目录，检索阶段把结构与语义候选对齐融合，生成阶段保持证据与答案的一一对应，您能清楚地看到每一步贡献了什么。

是RAG已死，还是RAG Anything，All in RAG？

通用索引（Universal Representation）：面向跨模态的原子化拆解与高保真结构保留，输出“统一知识图的原材料＋可统一编码的内容块”。
跨模态混合检索（Hybrid Retrieval）：结构导航多跳跟踪显式关系，语义匹配覆盖无显式连边的相关内容，二者合并后做跨模态融合重排。
证据综合生成（From Retrieval to Synthesis）：把候选转成结构化文本上下文 P(q)，并恢复视觉证据 V*(q)，以联合条件的方式驱动 VLM 生成可追溯答案。

通用表示

这一步的输入是任意文档 ki，输出是一组原子单元 {cj=(tj, xj)}，其中 tj 表示模态类型（文本、图像、表格、公式等），xj 是该单元的内容载荷，并附带它在原文中的层级位置与邻近上下文；这样拆完不但能逐块编码，还能在下游把这些单元重新织回去。您可以把它理解为“把文件打散成可索引的颗粒”，但每颗都带着来源、上下文与结构标签，后续才能在图里挂上对的边，避免把复杂图表压扁成一行描述这种常见的信息损失。

是RAG已死，还是RAG Anything，All in RAG？

文本：按语义段或条目切分，保留标题层级与交叉引用，便于后续做实体抽取与关系定位。
图像：提取图片体与 caption、脚注、周边描述等元数据，并记录与相邻段落的相对位置关系。
表格：把行头、列头、数据格、单位拆开成可独立建模的元素，并保存行‑列‑单位的显式约束。
公式：转为可解析的符号序列或树，并与定义语句、变量解释和应用语境建立链接，避免“口述式”丢失语义。

双图构建

研究者没有把所有东西硬塞进一张“大一统”图，而是针对非文本与文本分别建图，再通过实体对齐合并，以最大化保留模态特有的结构信号

是RAG已死，还是RAG Anything，All in RAG？

对于文本图，系统直接在文本 xj 上做命名实体识别与关系抽取，得到实体‑关系网络并保留段落层级、指代关系与交叉引用等线索；这样一来，跨模态图承担“把非文本的内部结构抽出来并与文本邻域对齐”的职责，文本图承担“在自然语言层面串联显式语义”的职责，二者在信息量与颗粒度上互补，能在后续检索中同时支持“沿边走”和“按义找”，这也是后面为什么要双路检索的根本原因。

跨模态图输出：锚节点 v^mm、内部实体与关系集（含 belongs_to、row_of、column_of、label_applies_to 等）。
文本图输出：面向段落的实体‑关系子图（人物/概念/指标及其语义连边）。

图融合与索引：统一知识图＋统一嵌入表，双轨合一

当两张子图都准备好后，系统以实体名称与同义归一作为主键进行对齐，把语义等价或指称一致的节点合并为统一知识图 G=(V,E)，这张图既保留了视觉‑文本之间的锚定关系，也保留了文本‑文本之间的语义脉络；与此同时，系统为所有组件统一编码，包括节点（实体）、边（关系）与跨模态原子内容块，形成嵌入表 T，统一索引 I=(G,T) 就具备了“可沿图导航”和“可在向量空间近邻搜索”两种能力，后续检索可以自由组合它们的长处与偏好，避免被单一策略带偏。

是RAG已死，还是RAG Anything，All in RAG？

对齐策略：名称匹配＋别名映射＋局部上下文一致性校验，避免把同名异物或异名同物对错。
编码对象：实体、关系、内容块三类统一进入向量空间，保持跨模态可比性与检索一致性。
索引形态：结构化图负责显式关系与可解释路径，嵌入表负责语义泛化与召回覆盖率。

跨模态混合检索

查询进入系统会先做模态感知分析，从词面线索中抽取对图、表、公式等的偏好，并用与索引一致的编码器生成查询嵌入 e_q，确保查询与各类组件处在同一个向量空间；接着两路并行启动：结构导航把查询落在图里的种子节点上，按有界半径做邻域扩展，沿显式关系多跳追踪，把相关实体、关系及其绑定的内容块收集成结构候选集 C_stru(q)，而语义匹配则直接在嵌入表 T 上做近邻搜索，跨实体、关系与内容块三类抓取最相近的项形成语义候选集 C_seman(q)。

两路候选合并后不能简单拼接，您会看到结构候选往往更“可解释”，语义候选更“泛化”，这时需要把拓扑结构的重要性、向量相似度分数与模态偏好共同纳入统一打分，得到最终的跨模态排序 C*(q)；这样既能保证沿路径可达的证据不会被忽视，也能把没有显式连边却语义贴近的内容拉进来，检索阶段的“结构与语义”就不再互相遮挡，而是互相补台，特别适合证据分散在多页、多模态、不同粒度的复杂文档。

结构导航：精确定位与多跳推理强，适合跨页关联与表格/图像内部定位。
语义匹配：覆盖范围广，能补足结构图缺边或抽取不足时的召回缺口。
融合重排：把拓扑中心性、路径长度、语义相似度与模态偏好统一成多信号分数，给出最终候选。

从检索到综合生成

在生成阶段，系统会先把最终候选转成结构化的文本上下文 P(q)，其中包含实体摘要、关系描述与内容块正文，并用清晰的分隔与来源标注体现模态类型与层级归属，保证可读可解析；与此同时，所有涉及图像、表格、公式的候选会恢复出原始视觉内容 V*(q)，与 P(q) 一起交给视觉语言模型，模型因此可以同时利用文字叙述与真实视觉证据进行推理与归因，您复盘时能从 P(q) 与 V*(q) 直接定位到支撑答案的具体片段，避免“凭印象”式的不可解释输出。

实验设置：数据集、基线与实现细节

这一部分更像一份工程可复用的“实验蓝图”，既交代数据与对照，也把实现参数说清楚，您照着就能在团队环境里跑通并复核关键指标；我们把变量尽量收敛到“解析‑索引‑检索‑综合”四个环节，确保任何性能差异都能对应到清晰的技术选择上，而不是被输入形态或评测口径悄悄改变。

是RAG已死，还是RAG Anything，All in RAG？

数据与规模：DocBench 含229份多模态文档，覆盖 Academia、Finance、Government、Law、News 五大领域，平均66页、约46,377词元，共1,102个问题；MMLongBench 含135份文档，覆盖 Research、Tutorial、Academic、Guidebook、Brochure、Administration、Financial 七类类型，共1,082个问题，平均约47.5页，强调长上下文与跨模态理解。
基线与对照：GPT‑4o‑mini 作为原生多模态对照（128K 上下文，文档渲染为图像输入，≤50页、144dpi，一句话作答，由同一模型判定正误），LightRAG 代表图增强文本 RAG（结构表示＋双层检索，但对表格与公式无结构意识），MMGraphRAG 代表多模态图方法（图像＋文本统一，但表格与公式仍被文本化处理）。
实现与参数：解析采用 MinerU 抽取文本/图像/表格/公式；统一编码使用 text‑embedding‑3‑large（3,072维）；候选重排采用 bge‑reranker‑v2‑m3；基于图的方法统一设置实体＋关系20,000token、内容块12,000token 的预算，用于控制索引体积与检索窗口的一致性。

评测流程：输入限制、答案判定与可比性控制

评测协议把输入与输出口径做了严格统一：对原生多模态基线，文档被渲染并拼接为图像输入，每文档最多50页、144dpi，输出限制为一句话，并由同一模型以统一口径判定正误，这样做虽然牺牲了一些灵活性，但把上下文窗口差异与输入形态的噪声压到最低；工程上看，变量被“钉”在解析、索引、检索、综合四个环节，因而改进基本只能来自结构表示、混合检索与证据注入，而不是“多给点上下文”这样含糊的利好。

主要结果：跨基准整体更稳，文档越长优势越明显

两套基准的总体结果给出清晰结论：DocBench上RAG‑Anything总体63.4％，在 Finance、Multimodal类型上尤为稳健；MMLongBench上整体42.8％，在多个文档类型上领先于对照，优势并非来自单一模态的堆叠，而是结构导航与语义匹配把跨页、跨模态、跨粒度的证据有效糅合，减少了“只抓住一种强信号”的偏差。

是RAG已死，还是RAG Anything，All in RAG？

DocBench关键分项：Aca61.4、Fin67.0、Gov61.5、Law60.2、News66.3；类型上 Txt85.0、Mm76.3、Una46.0，文本型与多模态型均有提升，且未以牺牲不可回答类为代价。
MMLongBench关键分项：多数领域优于对照，整体42.8％；在 Research/Tutorial/Guidebook/Administration 等信息密度高或跨页严重的类型上，结构化证据注入的收益更明显。
直观原因：结构导航保证“沿路径可达”的证据不丢失，语义匹配把无显式连边但贴近的问题‑证据配对补齐，融合重排避免单侧过拟合。

长文档表现：跨页实体对齐与结构化注入的实际收益

把结果按长度分桶后出现一个很有工程意义的趋势：在 DocBench 的101～200页区间，RAG‑Anything 与多模态基线分别是68.2％与54.6％，在200＋页区间分别是68.8％与55.0％，差距随长度增长而扩大；这与架构选择高度一致，跨页实体对齐把分散线索串成路径，结构化上下文注入让关键证据有序进入窗口，语义匹配再补齐“无显式边”的遗漏，长文档因此不再“越长越糊”，反而“越长越稳”。

是RAG已死，还是RAG Anything，All in RAG？

关键机制：跨页实体对齐（跨页同名概念联通）、结构化注入（证据成组投喂）、混合检索（结构与语义互补）、模态感知（按需提升图/表/公式权重）。

消融实验：到底哪一环起了关键作用

两组删减对照揭示了贡献的主次关系：Chunk‑only 不建图、仅做传统内容块检索，DocBench 总体仅60.0％，在 Multimodal 类型与金融等结构密集场景下跌幅更大；w/o Reranker 去掉跨模态重排但保留双图与混合检索，成绩为62.4％，完整模型63.4％，说明重排带来稳定增益，但决定上限的是双图与混合检索。

是RAG已死，还是RAG Anything，All in RAG？

细分对比（DocBench）：Aca55.8→61.4、Fin61.5→67.0、Gov60.1→61.5、Law60.7→60.2、News64.0→66.3；类型上 Txt81.6→85.0、Mm66.2→76.3、Una43.5→46.0，提升更集中在结构复杂与多模态重依赖的维度。
工程取舍：优先投入“高保真解析＋双图构建＋混合检索”，在召回足够的前提下再引入轻量重排与模态偏好校准；上线期监控 Multimodal 与长文档分桶的准确率，能更快暴露结构抽取与跨页对齐的短板。
我对这项工作也进行了验证，用qwen3-vl-plus跑通了代码。

是RAG已死，还是RAG Anything，All in RAG？

失败分析与局限

RAG Anything也并非完美，研究者在附录里给出两类失败模式：其一是检索偏文本，哪怕问题强调看图，系统也容易把强相关的文字段落拉进来，结果文字与图像的粒度不对齐，推理被带偏；其二是空间处理刚性，视觉模型习惯自上而下、从左到右扫描，遇到需要逆序、列优先或非标准版式的场景就会失手，比如合并单元格或跨列标注，要缓解这些问题，您需要在解析层引入版面感知模块，并在检索层引入对模态偏好的抑制或提升机制，避免让“好看但不相关”的段落占据窗口。

写在最后

所以，RAG还在进化，在通用多模态端到端且可溯源的模型没有之前，RAG仍然是性价比最高的落地方案。

文章来自于“AI修猫Prompt”，作者“AI修猫Prompt”。

关键词: AI , RAG , 模型训练 , AI搜索

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。
项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。
项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目
项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。
项目地址：https://github.com/TaskingAI/TaskingAI

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

是RAG已死，还是RAG Anything，All in RAG？

总体框架：三大组件与端到端流程

通用表示

双图构建

图融合与索引：统一知识图＋统一嵌入表，双轨合一

跨模态混合检索

从检索到综合生成

实验设置：数据集、基线与实现细节

评测流程：输入限制、答案判定与可比性控制

主要结果：跨基准整体更稳，文档越长优势越明显

长文档表现：跨页实体对齐与结构化注入的实际收益

消融实验：到底哪一环起了关键作用

相关工作：与其他框架的差别

失败分析与局限

写在最后