在技术飞速更新迭代的今天,每隔一段时间就会出现「XX 已死」的论调。「搜索已死」、「Prompt 已死」的余音未散,如今矛头又直指 RAG。
向量数据库 Chroma 创始人兼 CEO Jeff Huber 在播客与访谈中抛出「RAG 已死,上下文工程当立」的表述,主张以上下文工程框架取代对「RAG」这一术语的狭义依赖。
对于众多 AI 应用开发者而言,RAG 并不陌生。自 2022 年以来,为解决 LLM 输入长度有限(如 GPT-3.5 的 4K tokens)的问题,RAG 作为一种「外挂」知识库的解决方案,迅速成为行业标准。
其核心逻辑如同搜索引擎:将庞大文档切分成小块,通过向量嵌入和相似度搜索,找到与用户问题最相关的片段,再喂给 LLM 生成答案。
作为近几年最炙手可热的 LLM 应用范式之一,RAG 似乎正在经历一场生存危机。长上下文窗口的崛起和 Agent 能力的进化,正在动摇着它的核心地位。
那么,RAG 真的过时了吗?我们从三篇代表性文章中,梳理了业界对 RAG「生死问题」的不同回答。
来自 RAG 基础设施巨头 LlamaIndex 的这篇文章提供了一种演进主义的视角。它不认为 RAG 正在被替代,而是正在经历一个演进阶段,其中 AI 智能体成为一种全新的、更强大的 RAG 架构的核心。
文章指出,RAG 技术已经超越了早期「朴素的区块检索」阶段,进入了一个以「Agentic 策略」为核心的新时代。现代 AI 工程师需要掌握一系列复杂的数据检索技术,如混合搜索、CRAG、Self-RAG 等。
作者以 LlamaCloud 的检索服务为例,系统性地展示了如何从基础的 RAG 逐步构建一个能够智能查询多个知识库的、完全由 agent 驱动的高级检索系统。
第一阶段:基础的「Top-k」检索
这是 RAG 技术的起点。其工作原理如下:
作者还提及,在 LlamaCloud 的实现中,除了默认的按区块检索(chunk 模式),还提供了两种额外的文件级检索模式:
第二阶段:引入轻量级 agent——自动路由模式
在实际应用中,系统通常无法预知用户会提出哪种类型的问题。为了解决这个问题,作者介绍了一种名为「自动路由」(auto_routed)的检索模式。
该模式本质上是一个轻量级的 agent 系统。它会首先分析用户的查询,然后智能地判断应该采用上述三种模式(chunk、files_via_metadata 或 files_via_content)中的哪一种来执行检索。这实现了在单一知识库内的检索策略自动化。
第三阶段:扩展至多个知识库——复合检索 API
当一个系统需要处理多种不同格式的文档时(如财报 PDF、会议 PPT、客服记录等),将它们全部放在一个索引中并用相同的解析规则处理是低效的。更优的做法是为每种类型的文档创建独立的、高度优化的索引。
为了能够同时查询这些分散的知识库,作者介绍了「复合检索 API」。其核心功能是:
第四阶段:构建完全由 agent 驱动的知识系统
作者的最终目标是将上述技术整合,构建一个在每个环节都由 agent 进行智能决策的、完全自动化的检索系统。这个系统的运作流程形成了一个双层 agent 架构:
通过这种分层 agent 的方法,系统能够以高度动态和智能化的方式响应复杂多样的用户查询,在正确的时间、从正确的知识库、用正确的方式获取最精准的上下文。
作者总结道,简单的 RAG 已经过时,智能体驱动的检索才是未来。高级检索服务通过这种分层、智能的能力,充当着高级 AI 智能体不可或缺的「知识骨干」。
这篇博客的主要作者是资深机器学习工程师、曾就职于 GitHub 和 Airbnb 等知名企业的 Hamel Husain。
文章包含 6 个部分,作者邀请多位专家共同系统性地探讨了为什么 RAG 不仅没有死,反而正以前所未有的重要性,进化为构建可靠、高效 AI 应用的核心工程学科。
Part 1 & 2: 重新定义 RAG 与评估范式
Ben Clavié(RAGatouille 作者)和 Nandan Thakur(BEIR、FreshStack 基准测试设计者)首先澄清了核心误解。
Clavié 指出,将所有信息塞入长上下文窗口在经济和效率上都是不切实际的。RAG 的本质(为语言模型提供其训练时未见的外部知识)是永恒的需求。
我们告别的只是幼稚的单向量语义搜索,正如我们用 CSS 升级 HTML,我们正在用更先进的检索技术升级 RAG。
Thakur 则颠覆了传统的评估体系。他认为,像 BEIR 这类为传统搜索引擎设计的基准,其目标是「找到排名第一的正确答案」,这与 RAG 的目标不符。
RAG 系统的检索目标应该是:
为此,他设计了 FreshStack 基准,为衡量现代 RAG 系统的真实性能提供了新的标尺。
Part 3 & 4: 新一代检索模型:会推理、无损压缩
Orion Weller(约翰霍普金斯大学)和 Antoine Chaffin(LightOn)介绍了两种突破性的检索模型范式,它们让检索器本身具备了「思考」能力。
Weller 的研究将大模型的指令遵循和推理能力直接嵌入检索过程。他展示了两个模型:
Chaffin 则直指单向量检索的核心缺陷——信息压缩损失。他介绍了「延迟交互」模型(如 ColBERT),这种模型不将整个文档压缩成一个向量,而是保留了每个 token 的向量表示。
这使得一个仅有 150M 参数的小模型,在推理密集型任务上的表现甚至超过了 7B 参数的大模型。同时,PyLate 等开源库的出现,正让这种强大的技术变得前所未有地易于使用。
Part 5 & 6: 架构的进化:从单一地图到智能路由与上下文工程
最后两部分由 Bryan Bischof 和 Ayush Chaurasia,以及 Chroma 公司的 Kelly Hong,将视角从模型本身拉升到系统架构和工程实践。
Bischof 和 Chaurasia 提出,我们不应再寻找那个「完美」的嵌入模型或表示方法。正确的做法是,为同一份数据创建多种表示,就像为同一个地方准备多张不同功能的地图(如地形图、交通图)。
然后,利用一个智能「路由器」(通常是一个 LLM Agent)来理解用户意图,并将其导向最合适的「地图」进行查询。他们的「语义点彩艺术」应用生动地展示了这种架构的灵活性和强大效果。
Kelly Hong 的研究则为「长上下文万能论」敲响了警钟。她提出了「上下文腐烂」现象:随着输入上下文的增长,尤其是在存在模糊信息和「干扰项」时,大模型的性能会显著下降,甚至在简单任务上也变得不可靠。这证明了精巧的上下文工程和精准的检索比简单粗暴地填充上下文窗口更为重要。
这篇文章的作者是 Fintool 创始人 Nicolas Bustamante,他拥有十年法律和金融搜索平台构建经验,直言整个 RAG 架构正在成为一个不必要的、臃肿的历史包袱。
作者指出 RAG 架构从根基上就存在难以克服的「原罪」:
作者认为,智能体(Agent)和 LLM 长上下文窗口这两项技术进步将直接「杀死」RAG。
作者的「顿悟时刻」来源于 Anthropic 发布的 Claude Code。他发现这个编码助手在没有使用任何 RAG 的情况下,表现远超传统方法。
其秘诀在于放弃了复杂的索引管道,回归了最原始但极其高效的工具:grep(文本搜索)和 glob(文件模式匹配)。
这种「智能体搜索」范式的工作方式是「调查」而非「检索」:
作者的结论并非要彻底消灭 RAG,而是将其「降级」。在新的范式下,RAG 不再是系统的核心架构,而仅仅是 Agent 工具箱中的一个选项。
在面对海量文档需要初步筛选时,Agent 可能会先用混合搜索(RAG 的核心)进行一次粗筛,然后将排名靠前的几份完整文档加载到上下文中,进行深度分析和推理。
综合这三种观点,我们可以得出一个清晰的结论:初级的、朴素的 RAG(Naive RAG)确实已经「死亡」。那种简单的「切块-向量化-相似度搜索」流程,已无法满足日益复杂的 AI 应用需求。
然而,RAG 本身所代表的核心思想——为 LLM 提供精准、可靠的外部知识——的需求是永恒的。
未来的图景更可能是:
对于开发者而言,关键在于理解不同技术范式的优劣,并根据具体的应用场景,灵活地将它们组合成最高效、最可靠的解决方案。
文章来自于微信公众号“机器之心”,作者是“关注AI的”。
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装:https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址:https://github.com/hitsz-ids/airda
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。
项目地址:https://github.com/labring/FastGPT
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI
【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。
项目地址:https://github.com/InternLM/MindSearch
在线使用:https://mindsearch.openxlab.org.cn/
【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。
项目地址:https://github.com/miurla/morphic/tree/main
在线使用:https://www.morphic.sh/
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0