「2018 到 2023 年间在 EMNLP 会议上发表的那篇论文中,第一作者本科就读于达特茅斯学院、第四作者本科就读于宾夕法尼亚大学的那篇科学论文,题目是什么?」
这并不是一道靠记忆就能解答的题。Agent 必须在多轮环境交互中,不断假设、验证并修正路径,始终保持推理一致性,才能将零散证据整合成自洽链条。
2025 年被视为 AI Agent 元年,但真正的自主 Agent 核心在于「深度搜索」,在长程任务中像人类专家一样维持目标、验证信息并动态调整策略。然而,训练这样的 Agent 面临三大瓶颈:
为突破瓶颈,REDSearcher 团队设计了一套低成本、可扩展的训练框架,最终使用 30B 规格模型在深度搜索任务上取得开源模型 SoTA,并且超越了 GPT-5 等一众闭源模型。


什么是困难的搜索题目?推理跳数往往只是表象,应该追求的是问题的结构性困难。
复杂任务中,信息分叉交织形成回环。Agent 需同时记忆多路推论,时刻验证一致性,并随时准备整体回溯,这便是深度搜索的核心挑战。为此,团队引入图论中的 TreeWidth(树宽)概念来刻画这种「结构性困难」。以下通过三种结构问题进行对比:

即使问题的拓扑结构很复杂,如果存在一个网页恰好包含所有关键事实,模型一次检索就能抄走答案。为此,团队引入「信息分散度」,即覆盖全部关键证据所需的最小来源数。信息分散度越大,表明问题相关的证据片段(注:原文为“争取片段”,疑为笔误,此处已作修正)在互联网上的分布就更加零散,这迫使 Agent 与外部环境进行更多轮次的交互从而获取更加充分的信息。
基于双约束复杂度标准,我们采用 graph-to-text 流程合成数据:先生成符合树宽与分散度的推理图,再将其翻译为自然语言问题,并经过多层校验确保「高难度、可解且答案唯一」。同时,我们设计了基于「结构化信息」与「网络浏览」两套图构造流程,以覆盖不同搜索环境。在合成问题中,我们采取:

在文本合成基础上,REDSearcher 通过模态注入将纯文本推理图转化为跨模态推理,使部分约束锚定在图像中。
通过这套轻量级扩展,REDSearcher 可高效迁移至多模态搜索领域,合成高质量的图文深度搜索问题。
预训练模型缺乏多轮交互训练,在长程搜索中易出现目标漂移、重复搜索等问题。为此,REDSearcher 采用可扩展的两阶段 Mid-Training 框架,依次强化模型的「原子能力」与「组合能力」,实现从语言建模到智能体的过渡。

针对深度搜索重要的两个基础能力优化:
通过环境交互强化长程任务中的状态维持与目标一致性,全程以成本为约束:
后训练采取 SFT + Agentic RL 双阶段增强:
团队观察到了效率与性能同步提升的现象:随着训练进行,模型的平均交互轮次不断下降,但准确率持续提升。这表明 REDSearcher 并非简单的「暴力搜索」,而是学会了更精准的信息获取策略,主动减少无效调用,形成「越训越聪明」的良性循环。
在多项深度搜索权威基准上,REDSearcher 在开源模型中取得了优异的表现:


REDSearcher 的核心在于系统性设计:从图论角度定义深度搜索任务复杂度,以双约束优化可扩展合成数据,以两阶段中间训练降低能力迁移成本,以高质量轨迹合成结合强化学习实现持续迭代。它提供了一条可复现、低成本的深度搜索智能体训练路径,使 AI 系统从静态知识查询走向开放环境下的自主探索、验证与信息整合。
初征,哈工大社会计算与信息检索中心在读博士生,由刘铭教授和秦兵教授共同指导,研究方向是智能体、大语言模型、复杂推理、深度搜索。
王枭,就职于小红书 Hi Lab,负责Search Agent,主要关注长程推理、智能体、数据合成、强化学习。
Jack Hong,小红书 Hi Lab 团队算法实习生,主要研究方向是多模态大模型、Agent、计算机视觉等。
文章来自于“机器之心”,作者 “初征、王枭、Jack Hong”。
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI