AI牛马实现“干中学”!上海AI Lab联合推出智能体自我进化新框架

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AI牛马实现“干中学”!上海AI Lab联合推出智能体自我进化新框架
8227点击    2025-10-22 12:13

在人工智能的广阔世界里,我们早已习惯了LLM智能体在各种任务中大放异彩。但有没有那么一瞬间,你觉得这些AI“牛马”还是缺了点什么?


没错,它们缺少的是我们人类最宝贵的职场技能:经验的积累和持续的自我进化


想象一下:你入职第一天,对公司一无所知,只能依靠在学校中学习到的知识,工作中犯了错也无法吸取教训,第二次遇到同样的问题,你还得从头再来。听起来是不是很像一个会失忆的工具人?这就是现有LLM智能体在处理现实世界“长程任务”(Long-Horizon Tasks)时面临的巨大挑战。


为了彻底解决这一“职场尴尬”,来自上海人工智能实验室及合作机构的研究者们,提出了一套全新的智能体框架——MUSE(Memory-Utilizing and Self-Evolving,记忆利用和自我演化),让智能体在“职场”中不断进化,成为真正的“职场新星”,实现“干中学”(Learning on the Job)。


AI牛马实现“干中学”!上海AI Lab联合推出智能体自我进化新框架


下面的视频展现了一个模拟人类项目经理对公司项目issue进行管理的例子,可以看到MUSE在包括GitLab,Plane在内的多个软件平台来回跳转操作,最终在没有任何人类介入的情况下完成了这个任务。


AI牛马实现“干中学”!上海AI Lab联合推出智能体自我进化新框架


目前, MUSE的论文与代码已经完成了开源(链接见文末)。


MUSE:三步走,打造AI“职场新星”


MUSE的核心理念,是为LLM智能体构建一个“经验驱动、自我演化”的闭环系统,用“测试时学习”范式一次性解决“静态参数 + 无法进化 + 长程任务”三大痛点。


这个系统围绕一个分层记忆模块(Hierarchical Memory Module)展开。简单来说,MUSE让智能体像人类一样:先做、再反思、然后进化


AI牛马实现“干中学”!上海AI Lab联合推出智能体自我进化新框架

MUSE框架


第一步:告别“健忘症”——分层记忆模块(Memory Module)


传统LLM智能体之所以被称为“失忆的执行者”,就是因为它们没有长期记忆,无法保留和应用历史知识。而MUSE 框架为智能体装上了“大脑中枢”——一个能组织不同层级经验的记忆模块。这些经验包括:


Strategic Memory:保存“困境-策略”对,全局加载到系统提示,指导宏观行为范式。


Procedural Memory:按“应用→SOP 索引→详细步骤”三级组织,成功子任务轨迹实时沉淀为自然语言标准作业程序;轻量级索引常驻上下文,详情按需检索。


Tool Memory:静态描述 + 动态指令双组件,为每个基础工具提供“肌肉记忆”,用后立即更新。


MUSE能够利用这些经验来规划和执行跨应用的复杂任务,从而解决现有智能体在动态规划、经验积累和持续学习方面的难题。


第二步:“事后诸葛亮”——自主反思(Self-Reflection)


这是MUSE最“类人”的机制。在每完成一个子任务之后,MUSE的智能体不会立即进行下一个任务,而是会自主地对它的执行轨迹进行反思


这种反思机制,就像是AI在给自己做“工作总结与复盘”。


它会评估子任务的执行结果: 成功了还是失败了?


它会把原始的执行轨迹(Raw Trajectory)自动转化为结构化的经验(Structured Experience)。如果成功,就会提炼出高效的操作序列作为新的 SOP(标准操作程序)。


它甚至拥有“第二次机会”机制: 如果第一次尝试失败,它有一次重试机会(无需检索,鼓励探索),如果再次失败,才会触发重新规划。


第三步:超越“静态参数”——持续自我演化(Self-Evolution)


通过持续的“规划 → 执行 → 反思 → 提取经验”的四步闭环循环,MUSE 实现了真正的自我演化


这些积累的经验会被整合回记忆模块,不断优化智能体未来的规划和执行策略。这意味着:MUSE的性能会随着它自主积累的经验越来越多而持续提高


实验结果:智能体的“职场”表现


MUSE 框架在一系列实验中展示了令人振奋的能力:


  • SOTA表现和降维打击


在专为长期生产力任务设计的基准测试TAC (TheAgentCompany) 上,MUSE取得了显著的SOTA性能。最令人惊讶的是,MUSE仅使用轻量级的Gemini-2.5 Flash模型,就击败了使用更大模型 (Claude Sonnet 4)的现有SOTA方法, 在TAC的指标上首次突破50%大关,达到51.78%。这证明了 “经验驱动的自我演化机制”具有良好的前景。


AI牛马实现“干中学”!上海AI Lab联合推出智能体自我进化新框架


AI牛马实现“干中学”!上海AI Lab联合推出智能体自我进化新框架


  • 持续进化


面对重复任务,智能体孰能生巧,一次比一次做得更好,再也不是职场小白啦。


AI牛马实现“干中学”!上海AI Lab联合推出智能体自我进化新框架


  • 强大的泛化能力


MUSE积累的经验具备强大的泛化特性,即使在全新的、从未见过的任务上,它也能实现零样本改进(Zero-shot Improvement)


AI牛马实现“干中学”!上海AI Lab联合推出智能体自我进化新框架


  • 可迁移性


将闭源模型收集到的经验迁移到开源模型DeepSeek-V3上,可以帮助DeepSeek-V3在一众开源模型中成为SOTA。


AI牛马实现“干中学”!上海AI Lab联合推出智能体自我进化新框架


效果展示:智能体的工作日常


智能体创建多人聊天群组,同时向三位同事询问信息,显著简化信息收集流程:


AI牛马实现“干中学”!上海AI Lab联合推出智能体自我进化新框架


智能体跨越多个平台(rocketchat,gitlab等)依次与三位同事沟通,执行了超过100个步骤,最终圆满完成复杂任务:


AI牛马实现“干中学”!上海AI Lab联合推出智能体自我进化新框架


未来展望:AI的“职场”潜力


MUSE框架的出现,标志着AI智能体已经迈入了“经验驱动的终身学习”新阶段。它超越了传统的“测试时静态”模式,展示了AI在长程任务中的巨大潜力,为实现更具适应性和智能化的AI“职场打工人”奠定了坚实基础。展望未来,有什么办法能让AI打工人实现进一步的提升呢?


1. 告别“失忆”,优化记忆


  • 强化检索与整合: 尽管 MUSE 能够自动将原始轨迹转化为结构化、可重复使用的知识(SOP)并整合到记忆模块中,但如何更高效地检索(Retrieval)相关经验,并确保新旧知识的无缝整合(Integration),是下一步优化的关键。
  • 长效性和持续性: 如何确保记忆模块能够实现真正的终身、持续学习,防止旧知识被不恰当地遗忘或覆盖,从而在海量经验中保持性能的稳定提升,将是需要持续深耕的方向。


2. 丰富经验来源,打造多维度的“职场导师”


引入人类智慧: 展望未来的研究方向,可以将人类反馈(Human Feedback)和人类示范(Demonstrations)集成到记忆系统中。就像职场新人通过观看导师操作(示范)和听取指导(反馈)来快速成长一样,这将大大加速 AI 智能体的学习效率和能力边界。


3. 完善评估体系,助力 AI 职场“公平竞争”


  • 长期评估标准: 需要创建更全面的、专门用于长期任务评估的基准。
  • 多维度能力考察: 评估不仅要关注任务的成功率,还要衡量智能体的记忆保留能力、技能迁移能力以及主动决策能力,确保其能够像一个真正的终身学习者一样持续发展。


Arxiv:

https://arxiv.org/abs/2510.08002

GitHub:

https://github.com/KnowledgeXLab/MUSE


文章来自于“量子位”,作者“MUSE团队”。

关键词: AI , 模型训练 , MUSE , 人工智能
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md