LLM 智能体的时代,单个 Agent 的能力已到瓶颈,组建像 “智能体天团” 一样的多智能体系统已经见证了广泛的成功。但 “天团” 不是人越多越好,手动设计既费力又不讨好,现有的智能体自动化方法又只会 “一招鲜”,拿一套复杂阵容应对所有问题,导致 “杀鸡用牛刀”,成本高昂。
现在,一篇来自新加坡国立大学、上海 AI Lab、同济大学等机构并被 ICML 2025 接收为 Oral Presentation 的论文,为我们带来了全新的解题思路。
他们将神经网络架构搜索(NAS)的超网络(Supernet)思想引入 Agent 领域,首创了一个名为 “智能体超网”(Agentic Supernet)的概念。它不再寻找一个固定的最佳 “阵容”,而是根据任务难度,动态 “剪” 出一个量身定制的智能体团队。结果有多惊艳?性能超越现有方法最高 11.82%,推理成本却只有它们的 45%!
如今,从 AutoGen 到 MetaGPT,各种多智能体系统(Multi-agent Systems)层出不穷,通过定制化的协作,其能力在多个领域(如代码生成,复杂通用 AI 任务)已超越了单个智能体。但一个核心痛点始终存在:这些系统的设计往往依赖于繁琐的人工配置和 Prompt 工程。 为了解决这个问题,研究界转向自动化设计,比如通过强化学习、进化算法、蒙特卡洛树搜索等方式寻找最优的 Agent 工作流。
然而,这又带来了新的困境:
1. 资源浪费 (Dilemma 1):诸如 AFlow 和 ADAS 这样的自动化多智能体系统优化方法倾向于找到一个极其复杂的 “万金油” 式系统,以确保在所有任务上表现优异。 但面对 “10+1*2.5=?” 这样的简单问题,动用一个需要数十次 LLM 调用的复杂系统,无疑是巨大的资源浪费。
2. 任务冲突 (Dilemma 2):在 GAIA 这样的多领域基准测试中,一个擅长文献总结的多智能体系统,不一定擅长网页浏览总结 —— 似乎不存在一个能在所有任务上都最优的 “全能冠军”。
面对这种 “要么手动内卷,要么自动浪费” 的局面,我们是否该换个思路了?
这篇论文的核心贡献,就是一次漂亮的 “范式转移” (Paradigm Reformulation)。作者提出,我们不应该再执着于寻找一个单一、静态的最优智能体架构。相反,我们应该去优化一个 “智能体超网”(Agentic Supernet) —— 这是一个包含海量潜在智能体架构的概率分布。
图 1 智能体超网络
这个 “超网” 就像一个巨大的 “能力兵工厂”,里面包含了诸如思维链(CoT)、工具调用(ReAct)、多智能体辩论(Debate)等各式各样的基础能力 “算子”(Agentic Operator)。当一个新任务(Query)到来时,一个 “智能控制器”(Controller)会快速分析任务的难度和类型,然后从这个 “兵工厂” 中,动态地、即时地挑选并组合最合适的几个 “算子”,形成一个量身定制的、不多不少、资源分配额刚刚好的临时智能体系统去解决问题。
上图生动地展示了这一点:
这种 “按需分配、动态组合” 的哲学,正是大名鼎鼎的 NAS 的核心思想。如今,MaAS 框架将其成功地应用在了多智能体架构搜索(Multi-agent Architecture Search)上,可以说是 NAS 在 Agentic 时代的重生和胜利。
接下来,我们就一起拆解 MaAS 的 “独门秘籍”。其核心思想,可以概括为定义蓝图 → 智能调度 → 自我进化三步走战略。
第一板斧:定义万能 “蓝图” - Agentic Supernet
传统方法是设计一个具体的 Agent 架构 (System),而 MaAS 的第一步,就是定义一个包含所有可能性的 “宇宙”—— 智能体超网 (Agentic Supernet)。
1. 智能体算子 (Agentic Operator):首先,MaAS 将智能体系统拆解为一系列可复用的 “原子能力” 或 “技能模块”,也就是智能体算子 (O)。这包括了:
2. 概率化智能体超网 (Probabilistic Agentic Supernet):有了这些智能体算子,MaAS 将它们组织成一个多层的、概率化的结构。你可以想象成一个分了好几层的巨大 “技能池”。
图 2 MaAS 自进化框架示意图
如图 2 所示的智能体超网,就是 MaAS 施展魔法的舞台。它不是一个静态的系统,而是一个智能体系统架构的概率分布空间。
第二板斧:智能 “调度师” - 按需采样架构
有了 “蓝图”,当一个具体的任务(Query q)来了,如何快速生成一个 “定制团队” 呢?这就轮到 MaAS 的 “智能调度师”—— 控制器网络 (Controller) 上场了。控制器的工作流程如下所示:
1. “阅读” 任务:控制器首先将输入的 Query q 进行编码,理解其意图和难度。
2. 逐层挑选:然后,它从超网的第一层开始,逐层为当前任务挑选最合适的 “技能模块”。
3. MoE 式动态选择:这里的挑选机制非常精妙,它采用了一种类似混合专家(MoE)的策略。
在每一层,控制器会为所有待选的技能模块计算一个 “激活分数”。这个分数取决于当前任务 q 以及之前层已经选定了哪些模块。
然后,它会从分数最高的模块开始,依次激活,直到这些被激活模块的累计分数总和超过一个预设的阈值 (thres)。
这个设计恰恰与 MaAS 的动态性紧密相关!这意味着:
通过这种方式,MaAS 为每一个 Query 都动态生成了一个独一无二的、资源配比恰到好处的 Agent 执行图(G),实现了真正的 “查询感知(Query-aware)”。
第三板斧:双轨 “进化引擎” - 成本约束下的优化
生成了临时团队去执行任务还不够,MaAS 还要能从经验中学习,让整个 “超网” 和 “算子” 都变得越来越强。但这里有个难题:整个 Agent 执行过程是 “黑盒” 的,充满了与外部工具、API 的交互,无法进行端到端的梯度反向传播!为此,MaAS 采用了双轨优化策略,分别对 “架构分布” 和 “算子本身” 进行更新:
1. 架构分布 (π) 的进化 - 蒙特卡洛策略梯度:
2. 算子 (O) 本身的进化 - Textual Gradient (文本梯度):
这是最 “魔法” 的地方!如何优化一个 Prompt 或者一段 Python 代码?MaAS 借鉴了 “文本梯度” 的概念。
它会利用一个梯度智能体,来分析某个算子(比如 Debate 算子)的表现。
如果表现不佳,这个 “教练” 会生成一段文本形式的 “改进意见”,这就是 “文本梯度”。比如:
图 3 文本梯度案例
MaAS 的效果不仅理念先进,数据更是亮眼。
图 4 MaAS 与其他多智能体方法性能比较
如上图所示,在 GSM8K、MATH、HumanEval 等六大主流基准测试上,MaAS 全面超越了现有的 14 个基线方法,性能提升了 0.54% ~ 11.82%。 平均得分高达 83.59%,展示了其卓越的通用性和高效性。
图 5 训练与推理成本比较
成本大降是更令人兴奋的一点。MaAS 所需的推理成本(如 token 消耗)平均只有现有自动化或手动系统的 45%。在 MATH 基准上,MaAS 的训练成本仅为 3.38 美元,而表现相近的 AFlow 则高达 22.50 美元,相差 6.8 倍。除此之外,MaAS 的优化时间仅需 53 分钟,远低于其他动辄数小时的方法。
图 6 MaAS 成本可视化
上图同样展示了 MaAs 在训练 token 消耗、推理 token 消耗和推理 API 金额方面的卓越性能。
图 7 MaAS 推理动态展示。可以看到,针对不同难度的 query,MaAS 智能地激活了不同的智能体网络架构解决之。
上图是 MaAS 对于不同难度的 query 的激活动态。可以看到,MaAS 完美地做到了任务难度的动态感知,对于简单的任务早早地退出了推理过程,而对于复杂的任务则深入 3~4 层智能体超网络 u,并且每层激活的智能体算子不止一个。
除此之外,MaAs 还展示出了超强泛化能力:
MaAS 通过引入 “智能体超网” 的概念,巧妙地将 NAS 的思想范式应用到多智能体系统的自动化设计中,完美解决了当前领域 “一刀切” 设计所带来的资源浪费和性能瓶颈问题。它不再追求一个静态的最优解,而是转向优化一个动态生成的架构分布,为不同任务提供量身定制的、最高性价比的解决方案。这项工作无疑为构建更高效、更经济、更智能的全自动化 AI 系统铺平了道路。
让我们共同期待一个完全自动化、自组织、自进化的集体智能时代的到来!
文章来自于微信公众号“机器之心”。
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0