AI牛马实现“干中学”！上海AI Lab联合推出智能体自我进化新框架

9410点击 2025-10-22 12:13

在人工智能的广阔世界里，我们早已习惯了LLM智能体在各种任务中大放异彩。但有没有那么一瞬间，你觉得这些AI“牛马”还是缺了点什么？

没错，它们缺少的是我们人类最宝贵的职场技能：经验的积累和持续的自我进化。

想象一下：你入职第一天，对公司一无所知，只能依靠在学校中学习到的知识，工作中犯了错也无法吸取教训，第二次遇到同样的问题，你还得从头再来。听起来是不是很像一个会失忆的工具人？这就是现有LLM智能体在处理现实世界“长程任务”（Long-Horizon Tasks）时面临的巨大挑战。

为了彻底解决这一“职场尴尬”，来自上海人工智能实验室及合作机构的研究者们，提出了一套全新的智能体框架——MUSE（Memory-Utilizing and Self-Evolving，记忆利用和自我演化），让智能体在“职场”中不断进化，成为真正的“职场新星”，实现“干中学”（Learning on the Job）。

AI牛马实现“干中学”！上海AI Lab联合推出智能体自我进化新框架

下面的视频展现了一个模拟人类项目经理对公司项目issue进行管理的例子，可以看到MUSE在包括GitLab，Plane在内的多个软件平台来回跳转操作，最终在没有任何人类介入的情况下完成了这个任务。

AI牛马实现“干中学”！上海AI Lab联合推出智能体自我进化新框架

目前, MUSE的论文与代码已经完成了开源（链接见文末）。

MUSE：三步走，打造AI“职场新星”

MUSE的核心理念，是为LLM智能体构建一个“经验驱动、自我演化”的闭环系统，用“测试时学习”范式一次性解决“静态参数 + 无法进化 + 长程任务”三大痛点。

这个系统围绕一个分层记忆模块（Hierarchical Memory Module）展开。简单来说，MUSE让智能体像人类一样：先做、再反思、然后进化。

AI牛马实现“干中学”！上海AI Lab联合推出智能体自我进化新框架

△MUSE框架

第一步：告别“健忘症”——分层记忆模块（Memory Module）

传统LLM智能体之所以被称为“失忆的执行者”，就是因为它们没有长期记忆，无法保留和应用历史知识。而MUSE 框架为智能体装上了“大脑中枢”——一个能组织不同层级经验的记忆模块。这些经验包括：

Strategic Memory：保存“困境-策略”对，全局加载到系统提示，指导宏观行为范式。

Procedural Memory：按“应用→SOP 索引→详细步骤”三级组织，成功子任务轨迹实时沉淀为自然语言标准作业程序；轻量级索引常驻上下文，详情按需检索。

Tool Memory：静态描述 + 动态指令双组件，为每个基础工具提供“肌肉记忆”，用后立即更新。

MUSE能够利用这些经验来规划和执行跨应用的复杂任务，从而解决现有智能体在动态规划、经验积累和持续学习方面的难题。

第二步：“事后诸葛亮”——自主反思（Self-Reflection）

这是MUSE最“类人”的机制。在每完成一个子任务之后，MUSE的智能体不会立即进行下一个任务，而是会自主地对它的执行轨迹进行反思。

这种反思机制，就像是AI在给自己做“工作总结与复盘”。

它会评估子任务的执行结果：成功了还是失败了？

它会把原始的执行轨迹（Raw Trajectory）自动转化为结构化的经验（Structured Experience）。如果成功，就会提炼出高效的操作序列作为新的 SOP（标准操作程序）。

它甚至拥有“第二次机会”机制：如果第一次尝试失败，它有一次重试机会（无需检索，鼓励探索），如果再次失败，才会触发重新规划。

第三步：超越“静态参数”——持续自我演化（Self-Evolution）

通过持续的“规划 → 执行 → 反思 → 提取经验”的四步闭环循环，MUSE 实现了真正的自我演化。

这些积累的经验会被整合回记忆模块，不断优化智能体未来的规划和执行策略。这意味着：MUSE的性能会随着它自主积累的经验越来越多而持续提高。

实验结果：智能体的“职场”表现

MUSE 框架在一系列实验中展示了令人振奋的能力：

SOTA表现和降维打击

在专为长期生产力任务设计的基准测试TAC （TheAgentCompany） 上，MUSE取得了显著的SOTA性能。最令人惊讶的是，MUSE仅使用轻量级的Gemini-2.5 Flash模型，就击败了使用更大模型（Claude Sonnet 4）的现有SOTA方法，在TAC的指标上首次突破50%大关，达到51.78%。这证明了 “经验驱动的自我演化机制”具有良好的前景。

AI牛马实现“干中学”！上海AI Lab联合推出智能体自我进化新框架

持续进化

面对重复任务，智能体孰能生巧，一次比一次做得更好，再也不是职场小白啦。

AI牛马实现“干中学”！上海AI Lab联合推出智能体自我进化新框架

强大的泛化能力

MUSE积累的经验具备强大的泛化特性，即使在全新的、从未见过的任务上，它也能实现零样本改进（Zero-shot Improvement）。

AI牛马实现“干中学”！上海AI Lab联合推出智能体自我进化新框架

可迁移性

将闭源模型收集到的经验迁移到开源模型DeepSeek-V3上，可以帮助DeepSeek-V3在一众开源模型中成为SOTA。

AI牛马实现“干中学”！上海AI Lab联合推出智能体自我进化新框架

效果展示：智能体的工作日常

智能体创建多人聊天群组，同时向三位同事询问信息，显著简化信息收集流程：

AI牛马实现“干中学”！上海AI Lab联合推出智能体自我进化新框架

智能体跨越多个平台（rocketchat，gitlab等）依次与三位同事沟通，执行了超过100个步骤，最终圆满完成复杂任务：

AI牛马实现“干中学”！上海AI Lab联合推出智能体自我进化新框架

未来展望：AI的“职场”潜力

MUSE框架的出现，标志着AI智能体已经迈入了“经验驱动的终身学习”新阶段。它超越了传统的“测试时静态”模式，展示了AI在长程任务中的巨大潜力，为实现更具适应性和智能化的AI“职场打工人”奠定了坚实基础。展望未来，有什么办法能让AI打工人实现进一步的提升呢？

1. 告别“失忆”，优化记忆

强化检索与整合：尽管 MUSE 能够自动将原始轨迹转化为结构化、可重复使用的知识（SOP）并整合到记忆模块中，但如何更高效地检索（Retrieval）相关经验，并确保新旧知识的无缝整合（Integration），是下一步优化的关键。
长效性和持续性：如何确保记忆模块能够实现真正的终身、持续学习，防止旧知识被不恰当地遗忘或覆盖，从而在海量经验中保持性能的稳定提升，将是需要持续深耕的方向。

2. 丰富经验来源，打造多维度的“职场导师”

引入人类智慧：展望未来的研究方向，可以将人类反馈（Human Feedback）和人类示范（Demonstrations）集成到记忆系统中。就像职场新人通过观看导师操作（示范）和听取指导（反馈）来快速成长一样，这将大大加速 AI 智能体的学习效率和能力边界。

3. 完善评估体系，助力 AI 职场“公平竞争”

长期评估标准：需要创建更全面的、专门用于长期任务评估的基准。
多维度能力考察：评估不仅要关注任务的成功率，还要衡量智能体的记忆保留能力、技能迁移能力以及主动决策能力，确保其能够像一个真正的终身学习者一样持续发展。

Arxiv：

https://arxiv.org/abs/2510.08002

GitHub：

https://github.com/KnowledgeXLab/MUSE

文章来自于“量子位”，作者“MUSE团队”。

关键词: AI , 模型训练 , MUSE , 人工智能

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md