是RAG已死,还是RAG Anything,All in RAG?

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
是RAG已死,还是RAG Anything,All in RAG?
5580点击    2025-10-20 12:08

每隔一阵子,总有人宣告“RAG已死”:上下文越来越长、端到端多模态模型越来越强,好像不再需要检索与证据拼装。但真正落地到复杂文档与可溯源场景,你会发现死掉的只是“只切文本的旧RAG”。当图、表、公式与文本被统一拆解并纳入同一套结构化索引与混合检索链路时,RAG不但没死,反而进化为RAG Anything!把一切可证据化,All in RAG。


是RAG已死,还是RAG Anything,All in RAG?


是RAG已死,还是RAG Anything,All in RAG?


这篇文章面向正在落地人工智能产品的您,我会以直接的工程视角,解读GitHub上8.7kstar的RAG‑Anything,包括它到底在解决什么问题、三大技术组件与整体流程、关键实现细节、实验与评测、消融实验、案例研究、相关工作、结论与落地建议;我尽量把每一步的操作方式说透,同时避免堆术语,让您能把这套方法搬进真实系统中。虽然内容密集,但结构是清晰的,您可以按章节跳读……不过我更建议从头看完,这样您会更快建立完整的实现图景。


总体框架:三大组件与端到端流程


整体由三大组件首尾相接构成一条可落地的工程流水线:通用表示与索引把异构内容拆成带结构的原子单元并建立统一索引,跨模态混合检索用“结构导航+语义匹配”两路并行找齐证据,证据综合生成在结构化文本上下文里“回填”原始视觉内容后交给视觉语言模型联合推理。运行顺序并不复杂,但各环节要配合默契:解析阶段产出可建图的锚点与边,索引阶段生成图结构与向量目录,检索阶段把结构与语义候选对齐融合,生成阶段保持证据与答案的一一对应,您能清楚地看到每一步贡献了什么。


是RAG已死,还是RAG Anything,All in RAG?


  • 通用索引(Universal Representation):面向跨模态的原子化拆解与高保真结构保留,输出“统一知识图的原材料+可统一编码的内容块”。
  • 跨模态混合检索(Hybrid Retrieval):结构导航多跳跟踪显式关系,语义匹配覆盖无显式连边的相关内容,二者合并后做跨模态融合重排。
  • 证据综合生成(From Retrieval to Synthesis):把候选转成结构化文本上下文 P(q),并恢复视觉证据 V*(q),以联合条件的方式驱动 VLM 生成可追溯答案。


通用表示


这一步的输入是任意文档 ki,输出是一组原子单元 {cj=(tj, xj)},其中 tj 表示模态类型(文本、图像、表格、公式等),xj 是该单元的内容载荷,并附带它在原文中的层级位置与邻近上下文;这样拆完不但能逐块编码,还能在下游把这些单元重新织回去。您可以把它理解为“把文件打散成可索引的颗粒”,但每颗都带着来源、上下文与结构标签,后续才能在图里挂上对的边,避免把复杂图表压扁成一行描述这种常见的信息损失。


是RAG已死,还是RAG Anything,All in RAG?


  • 文本:按语义段或条目切分,保留标题层级与交叉引用,便于后续做实体抽取与关系定位。
  • 图像:提取图片体与 caption、脚注、周边描述等元数据,并记录与相邻段落的相对位置关系。
  • 表格:把行头、列头、数据格、单位拆开成可独立建模的元素,并保存行‑列‑单位的显式约束。
  • 公式:转为可解析的符号序列或树,并与定义语句、变量解释和应用语境建立链接,避免“口述式”丢失语义。


双图构建


研究者没有把所有东西硬塞进一张“大一统”图,而是针对非文本与文本分别建图,再通过实体对齐合并,以最大化保留模态特有的结构信号


是RAG已死,还是RAG Anything,All in RAG?


对于文本图,系统直接在文本 xj 上做命名实体识别与关系抽取,得到实体‑关系网络并保留段落层级、指代关系与交叉引用等线索;这样一来,跨模态图承担“把非文本的内部结构抽出来并与文本邻域对齐”的职责,文本图承担“在自然语言层面串联显式语义”的职责,二者在信息量与颗粒度上互补,能在后续检索中同时支持“沿边走”和“按义找”,这也是后面为什么要双路检索的根本原因。


  • 跨模态图输出:锚节点 v^mm、内部实体与关系集(含 belongs_to、row_of、column_of、label_applies_to 等)。
  • 文本图输出:面向段落的实体‑关系子图(人物/概念/指标及其语义连边)。


图融合与索引:统一知识图+统一嵌入表,双轨合一


当两张子图都准备好后,系统以实体名称与同义归一作为主键进行对齐,把语义等价或指称一致的节点合并为统一知识图 G=(V,E),这张图既保留了视觉‑文本之间的锚定关系,也保留了文本‑文本之间的语义脉络;与此同时,系统为所有组件统一编码,包括节点(实体)、边(关系)与跨模态原子内容块,形成嵌入表 T,统一索引 I=(G,T) 就具备了“可沿图导航”和“可在向量空间近邻搜索”两种能力,后续检索可以自由组合它们的长处与偏好,避免被单一策略带偏。


是RAG已死,还是RAG Anything,All in RAG?


  • 对齐策略:名称匹配+别名映射+局部上下文一致性校验,避免把同名异物或异名同物对错。
  • 编码对象:实体、关系、内容块三类统一进入向量空间,保持跨模态可比性与检索一致性。
  • 索引形态:结构化图负责显式关系与可解释路径,嵌入表负责语义泛化与召回覆盖率。


跨模态混合检索


查询进入系统会先做模态感知分析,从词面线索中抽取对图、表、公式等的偏好,并用与索引一致的编码器生成查询嵌入 e_q,确保查询与各类组件处在同一个向量空间;接着两路并行启动:结构导航把查询落在图里的种子节点上,按有界半径做邻域扩展,沿显式关系多跳追踪,把相关实体、关系及其绑定的内容块收集成结构候选集 C_stru(q),而语义匹配则直接在嵌入表 T 上做近邻搜索,跨实体、关系与内容块三类抓取最相近的项形成语义候选集 C_seman(q)。


两路候选合并后不能简单拼接,您会看到结构候选往往更“可解释”,语义候选更“泛化”,这时需要把拓扑结构的重要性、向量相似度分数与模态偏好共同纳入统一打分,得到最终的跨模态排序 C*(q);这样既能保证沿路径可达的证据不会被忽视,也能把没有显式连边却语义贴近的内容拉进来,检索阶段的“结构与语义”就不再互相遮挡,而是互相补台,特别适合证据分散在多页、多模态、不同粒度的复杂文档。


  • 结构导航:精确定位与多跳推理强,适合跨页关联与表格/图像内部定位。
  • 语义匹配:覆盖范围广,能补足结构图缺边或抽取不足时的召回缺口。
  • 融合重排:把拓扑中心性、路径长度、语义相似度与模态偏好统一成多信号分数,给出最终候选。


从检索到综合生成


在生成阶段,系统会先把最终候选转成结构化的文本上下文 P(q),其中包含实体摘要、关系描述与内容块正文,并用清晰的分隔与来源标注体现模态类型与层级归属,保证可读可解析;与此同时,所有涉及图像、表格、公式的候选会恢复出原始视觉内容 V*(q),与 P(q) 一起交给视觉语言模型,模型因此可以同时利用文字叙述与真实视觉证据进行推理与归因,您复盘时能从 P(q) 与 V*(q) 直接定位到支撑答案的具体片段,避免“凭印象”式的不可解释输出。


实验设置:数据集、基线与实现细节


这一部分更像一份工程可复用的“实验蓝图”,既交代数据与对照,也把实现参数说清楚,您照着就能在团队环境里跑通并复核关键指标;我们把变量尽量收敛到“解析‑索引‑检索‑综合”四个环节,确保任何性能差异都能对应到清晰的技术选择上,而不是被输入形态或评测口径悄悄改变。


是RAG已死,还是RAG Anything,All in RAG?


  • 数据与规模:DocBench 含229份多模态文档,覆盖 Academia、Finance、Government、Law、News 五大领域,平均66页、约46,377词元,共1,102个问题;MMLongBench 含135份文档,覆盖 Research、Tutorial、Academic、Guidebook、Brochure、Administration、Financial 七类类型,共1,082个问题,平均约47.5页,强调长上下文与跨模态理解。
  • 基线与对照:GPT‑4o‑mini 作为原生多模态对照(128K 上下文,文档渲染为图像输入,≤50页、144dpi,一句话作答,由同一模型判定正误),LightRAG 代表图增强文本 RAG(结构表示+双层检索,但对表格与公式无结构意识),MMGraphRAG 代表多模态图方法(图像+文本统一,但表格与公式仍被文本化处理)。
  • 实现与参数:解析采用 MinerU 抽取文本/图像/表格/公式;统一编码使用 text‑embedding‑3‑large(3,072维);候选重排采用 bge‑reranker‑v2‑m3;基于图的方法统一设置实体+关系20,000token、内容块12,000token 的预算,用于控制索引体积与检索窗口的一致性。


评测流程:输入限制、答案判定与可比性控制


评测协议把输入与输出口径做了严格统一:对原生多模态基线,文档被渲染并拼接为图像输入,每文档最多50页、144dpi,输出限制为一句话,并由同一模型以统一口径判定正误,这样做虽然牺牲了一些灵活性,但把上下文窗口差异与输入形态的噪声压到最低;工程上看,变量被“钉”在解析、索引、检索、综合四个环节,因而改进基本只能来自结构表示、混合检索与证据注入,而不是“多给点上下文”这样含糊的利好。


主要结果:跨基准整体更稳,文档越长优势越明显


两套基准的总体结果给出清晰结论:DocBench上RAG‑Anything总体63.4%,在 Finance、Multimodal类型上尤为稳健;MMLongBench上整体42.8%,在多个文档类型上领先于对照,优势并非来自单一模态的堆叠,而是结构导航与语义匹配把跨页、跨模态、跨粒度的证据有效糅合,减少了“只抓住一种强信号”的偏差。


是RAG已死,还是RAG Anything,All in RAG?


是RAG已死,还是RAG Anything,All in RAG?


  • DocBench关键分项:Aca61.4、Fin67.0、Gov61.5、Law60.2、News66.3;类型上 Txt85.0、Mm76.3、Una46.0,文本型与多模态型均有提升,且未以牺牲不可回答类为代价。
  • MMLongBench关键分项:多数领域优于对照,整体42.8%;在 Research/Tutorial/Guidebook/Administration 等信息密度高或跨页严重的类型上,结构化证据注入的收益更明显。
  • 直观原因:结构导航保证“沿路径可达”的证据不丢失,语义匹配把无显式连边但贴近的问题‑证据配对补齐,融合重排避免单侧过拟合。


长文档表现:跨页实体对齐与结构化注入的实际收益


把结果按长度分桶后出现一个很有工程意义的趋势:在 DocBench 的101~200页区间,RAG‑Anything 与多模态基线分别是68.2% 与54.6%,在200+ 页区间分别是68.8% 与55.0%,差距随长度增长而扩大;这与架构选择高度一致,跨页实体对齐把分散线索串成路径,结构化上下文注入让关键证据有序进入窗口,语义匹配再补齐“无显式边”的遗漏,长文档因此不再“越长越糊”,反而“越长越稳”。


是RAG已死,还是RAG Anything,All in RAG?


  • 关键机制:跨页实体对齐(跨页同名概念联通)、结构化注入(证据成组投喂)、混合检索(结构与语义互补)、模态感知(按需提升图/表/公式权重)。


消融实验:到底哪一环起了关键作用


两组删减对照揭示了贡献的主次关系:Chunk‑only 不建图、仅做传统内容块检索,DocBench 总体仅60.0%,在 Multimodal 类型与金融等结构密集场景下跌幅更大;w/o Reranker 去掉跨模态重排但保留双图与混合检索,成绩为62.4%,完整模型63.4%,说明重排带来稳定增益,但决定上限的是双图与混合检索。


是RAG已死,还是RAG Anything,All in RAG?


  • 细分对比(DocBench):Aca55.8→61.4、Fin61.5→67.0、Gov60.1→61.5、Law60.7→60.2、News64.0→66.3;类型上 Txt81.6→85.0、Mm66.2→76.3、Una43.5→46.0,提升更集中在结构复杂与多模态重依赖的维度。
  • 工程取舍:优先投入“高保真解析+双图构建+混合检索”,在召回足够的前提下再引入轻量重排与模态偏好校准;上线期监控 Multimodal 与长文档分桶的准确率,能更快暴露结构抽取与跨页对齐的短板。
  • 我对这项工作也进行了验证,用qwen3-vl-plus跑通了代码。


是RAG已死,还是RAG Anything,All in RAG?

是RAG已死,还是RAG Anything,All in RAG?

是RAG已死,还是RAG Anything,All in RAG?


相关工作:与其他框架的差别


图增强的检索增强生成已经很多,比如 GraphRAG、LightRAG、GNN‑RAG、HippoRAG、RAPTOR、ArchRAG,它们在结构建模或层级聚合上各有长处,但基本停留在文本域;多模态检索增强也有代表路线,比如 VideoRAG、MM‑VID、VisRAG、MMGraphRAG,它们或把视频等转文本导致视觉信息损失,或仅保留版面图却缺细粒度关系,或只为图像构图而忽略表格与公式,研究者指出核心问题不是“模态是否被支持”,而是“架构是否统一”,一旦每种模态都走各自管线,跨模态对齐与融合就会成为长期的瓶颈。


失败分析与局限


RAG Anything也并非完美,研究者在附录里给出两类失败模式:其一是检索偏文本,哪怕问题强调看图,系统也容易把强相关的文字段落拉进来,结果文字与图像的粒度不对齐,推理被带偏;其二是空间处理刚性,视觉模型习惯自上而下、从左到右扫描,遇到需要逆序、列优先或非标准版式的场景就会失手,比如合并单元格或跨列标注,要缓解这些问题,您需要在解析层引入版面感知模块,并在检索层引入对模态偏好的抑制或提升机制,避免让“好看但不相关”的段落占据窗口。


写在最后


所以,RAG还在进化,在通用多模态端到端且可溯源的模型没有之前,RAG仍然是性价比最高的落地方案。


文章来自于“AI修猫Prompt”,作者“AI修猫Prompt”。

关键词: AI , RAG , 模型训练 , AI搜索
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI

2
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0