微软已为Agent悄然调转船头,当大厂都在卷“通用Agent”

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
微软已为Agent悄然调转船头,当大厂都在卷“通用Agent”
6181点击    2025-06-18 10:36

您有没有这样的体验?一天的工作里,您可能用GPTo3写了个方案,然后切换到Cursor或者Trae里写代码,接着又打开Notion或者飞书整理文档。每个工具都挺聪明,但它们彼此之间就像生活在平行宇宙——写方案的GPT不知道您后来写了什么代码,写代码的Cursor也不清楚您的整体规划是什么。最终,您不得不在这些工具间来回穿梭,反复解释同样的需求,那么当AI工具成了"孤岛",谁来当那个"胶水"?答案是用户


微软已为Agent悄然调转船头,当大厂都在卷“通用Agent”


微软亚洲研究院最近发表了一篇万字论文,他们自己就运营着从Windows、Office到GitHub Copilot、Azure的庞大产品矩阵,数万名员工每天都在经历“反复重申意图、手动追踪依赖关系、并费力地将不同的工具拼接在一起”的痛苦,这种低效在微软这种万人企业里带来的成本用亿万美金计算都不为过——只有真正承受过这种系统性痛点的公司,才能提出如此根本性的解决思路。他们的观点颇具前瞻性:问题不在于AI能力不够强,而在于缺乏一个让人和AI真正协作的架构


微软已为Agent悄然调转船头,当大厂都在卷“通用Agent”


三种AI范式的"各干各"


研究者把当前市面上的AI工具分为三大类,每一类都有自己的擅长领域,但也都有明显的局限性。


微软已为Agent悄然调转船头,当大厂都在卷“通用Agent”

三种AI工具


聊天机器人:对话很流畅,但没有"记忆"


像ChatGPT这样的聊天机器人,最大的优势就是交流门槛低,您想到什么就能说什么。但问题是,它们的"思维"基本上是线性的——一问一答,一轮一轮,很难处理复杂的、需要多步骤的任务。更要命的是,它们没有真正的状态管理,今天聊的内容明天可能就"忘"了,更别说跨工具的协作了。


Copilot工具:贴身助手,但视野有限


GitHub Copilot、Office Copilot这类工具就像贴身助手,能根据您当前的工作环境提供精准建议。您在写代码时它知道上下文,在写文档时也能理解当前段落的含义。不过,它们的"视野"被限制在单一应用里,看不到您的整体工作流程,也无法感知其他工具里发生的事情。


自主Agent:能力很强,但像个"黑盒"


AutoGPT、LangChain这类Agent系统可以自主规划、多步执行,看起来很厉害。但实际使用中您会发现,它们更像是在"表演"而不是"协作"——您很难看懂它们的推理过程,更别说中途插手调整方向了。结果就是,您要么完全放手让它跑(然后祈祷结果是对的),要么就得从头开始重新设置。


微软的大招:三层架构重新定义协作


面对这些问题,微软提出了一个相当有野心的解决方案:不是造一个更强的Agent,而是重新定义“赋能方式”——建立一个让所有工具都能协作的架构


这个架构分为三层,但核心思想是把"协作过程"从隐藏状态提升为"T1梯队"。换句话说,不再把协作逻辑藏在系统内部,而是让它变得可见、可检查、可修改。


微软已为Agent悄然调转船头,当大厂都在卷“通用Agent”

三层架构示意图


过程层:整个系统的"大脑"和"记忆"


这一层是整个架构的精髓,研究者称它为系统的"结缔组织"。它包含五个模块:问题空间(捕获不断演化的目标)、工作流程(编码协调逻辑)、操作模块(具体执行步骤)、环境空间(共享工作区)、反思模块(元级别评估)。这些模块动态关联,早期可能更关注问题探索和反思,后期则侧重工作流程和具体操作,整个过程保持连贯性。


交互层:让复杂过程变得"可理解"


这一层负责把底层的协作逻辑翻译成人类能理解的形式。同样的协作状态,可以显示为聊天界面、工作流图表、看板视图或者时间线,具体用哪种取决于当前的工作阶段和用户需求。关键是,这些界面不只是展示结果,还能让您直接操作和修改底层的协作逻辑。


基础设施层:提供"弹药库"和"通信网络"


最底层管理着各种AI模型、工具、API,以及它们之间的协调机制。它分为三个部分:个性化(用户偏好、记忆、历史)、基础能力(大模型、外部工具)、协调机制(通信协议、编排框架)。这一层保证了系统的模块化和可扩展性,新工具可以随时接入,旧工具也能平滑升级。


"结构适应性":不只改结果,还改协作方式


微软提出了一个很有意思的概念叫"结构适应性"。传统的AI系统只能调整输出内容,但这个架构能够动态调整协作方式本身


比如说,当任务变得复杂时,系统可能会增加更多的检查点;当用户展现出某个领域的专业能力时,系统会相应调整自己的参与度;当发现当前工作流程有问题时,系统能够重新组织步骤顺序,甚至重新分配人机角色。这种适应不是预设的规则,而是基于对协作过程的持续观察和学习。


真实场景:产品经理Mei的一天


论文用了一个很生动的例子来说明这个架构是怎么工作的。


从模糊需求到结构化问题


产品策略师Mei对系统说:"识别并处理Q3产品计划与组织指标之间的不一致问题。"系统立即将这个模糊的需求转化为结构化的问题空间,创建了多个"摩擦线程",每个线程代表一个具体的冲突点,比如时间线冲突、资源缺口等,并自动关联相关的文档、数据和历史决策。


发现问题根源,动态调整策略


在审查过程中,Mei发现两个看似无关的问题(工程师招聘延迟和团队责任模糊)实际上都指向同一个集成里程碑的风险。她意识到这是一个更深层的协调问题,于是将两个线程合并并重新标记。系统立即响应,重新构建了工作流程,将依赖关系映射提前到协调规划之前,所有变更都记录在过程历史中,确保后续可以追溯和修订。


反思检查点与决策包生成


在准备跨团队会议前,Mei启动了反思检查点。系统评估当前提案,识别出低置信度选项和缺失输入,比如只有单一报告支持的建议和待定的财务反馈。Mei设置了过滤约束:优先考虑有多源支持的提案,除非明确标记为紧急。最终系统生成了一个决策包,包含角色特定的摘要、理由亮点和支持文档链接,让与会者能够理解每个提案背后的逻辑,而不只是结果。


没有银弹,没有免费午餐


"没有银弹"。这个概念来自图灵奖得主Fred Brooks在1987年的经典论文,他指出没有任何单一的技术或方法能够在十年内将软件生产力提高一个数量级——就像对付狼人需要银弹一样,复杂的软件问题没有万能的解决方案。类似地,机器学习领域还有个"没有免费午餐"定理,由Wolpert和Macready提出,核心思想是没有一个算法在所有问题上都表现最优,每种方法都有其适用边界。我之前专门写过一篇以此概念开发的Agent框架,感兴趣您可以看下这篇没有银弹,没有免费午餐!KtR用算法思维重构Multi-Agent设计


微软这个方案最打动人的地方,是它体现了对这些经典定理的深刻理解。


放弃"通用Agent"的幻想


现在很多公司都在追求打造一个无所不能的超级Agent,但微软选择了另一条路:承认专业化的必要性,专注于解决协作问题。他们认为,真实世界的复杂工作本来就需要多种专业能力的配合,试图用单一Agent解决所有问题既不现实也不高效。


从"能力竞争"转向"架构竞争"


传统思路是"我的Agent比你的更强",微软的思路是"我的架构让所有Agent协作得更好"。这种转变很像云计算早期,大家不再比拼单机性能,而是比拼分布式架构的协调能力。这可能代表了AI发展的下一个阶段:从单点突破转向系统性协同。


对开发者的启示:重新思考产品架构


如果您正在开发AI产品,这篇论文提供了几个很有价值的思考角度。


不要再做"孤岛产品"


与其专注于让自己的Agent变得更强大,不如考虑如何让它更好地融入用户的整体工作流程。这意味着您需要提供开放的接口、持久化的状态管理,以及与其他工具协作的能力。用户真正需要的不是另一个强大的工具,而是一个能够理解并参与他们工作过程的合作伙伴。


让"过程"成为产品的核心


传统的AI产品关注输入输出,微软的架构提醒我们关注"过程"。用户的工作往往是迭代的、探索性的,目标会变化,策略会调整。如果您的产品能够跟踪、理解并支持这种过程演化,就能提供远超竞争对手的用户体验。


设计可适应的协作模式


不同用户、不同场景需要不同的协作方式。有时用户希望AI主导,有时希望自己掌控,有时需要密切配合。您的产品架构应该支持这种动态的角色调整,而不是硬编码某种固定的交互模式。


技术实现的几个关键点


从技术角度看,要实现这样的架构,有几个关键技术需要突破。


状态管理和持久化


系统需要维护丰富的状态信息:用户目标、工作流程、决策历史、上下文环境等。这些状态不能只存在内存中,需要持久化存储,并且要支持版本管理、回滚、分支等操作。技术上可能涉及图数据库、事件溯源、CQRS等架构模式。


多模态接口和动态渲染


同样的协作状态需要根据场景渲染成不同的界面形式。这需要一个灵活的UI架构,能够根据当前上下文、用户偏好、任务阶段动态选择最合适的展示方式。前端框架需要支持组件的动态组合和状态同步。


分布式协调和通信


多个AI Agent和工具需要协调工作,这涉及到分布式系统的经典问题:消息传递、状态同步、故障恢复等。可能需要借鉴微服务架构、事件驱动架构的一些设计模式,同时还要考虑AI特有的需求,比如推理链的传递、不确定性的处理等。


潜在应用场景:从个人助手到企业协作


这个架构的应用潜力相当广泛,不只是个人生产力工具。


软件开发工作流


想象一下,您的需求分析、架构设计、编码实现、测试部署各个环节都有专门的AI助手,但它们共享同一个项目上下文。当产品经理调整需求时,所有后续环节的AI都能感知到变化并相应调整建议。代码审查时发现的问题可以追溯到需求阶段,形成完整的决策链条。


科研协作平台


研究者可以有专门的文献检索AI、数据分析AI、论文写作AI,但它们都围绕同一个研究问题协作。当您在阅读文献时产生新想法,写作AI能够感知并调整论文结构;当数据分析发现异常时,检索AI会主动寻找相关的理论解释。整个研究过程变得连贯而高效。


创意产业工作流


从创意构思、视觉设计、文案撰写到营销推广,每个环节的AI都能理解项目的整体愿景和当前进展。设计师调整视觉风格时,文案AI会相应调整语言调性;市场反馈回来后,整个创意团队(包括AI)都能基于统一的理解进行迭代优化。


挑战与未来方向


当然,要实现这样的愿景还面临不少挑战。


复杂性管理


随着协作Agent数量的增加,系统复杂性会指数级增长。如何保证系统的稳定性、可预测性,如何调试和优化这样的分布式AI系统,都是需要解决的问题。可能需要借鉴传统分布式系统的监控、治理经验,同时发展适合AI系统的新工具。


隐私和安全


多个AI系统共享用户数据和工作上下文,隐私保护变得更加复杂。需要设计细粒度的权限控制机制,确保敏感信息只在必要的范围内共享。同时还要防范AI系统被恶意利用,比如通过某个入口影响整个协作网络。


标准化和互操作性


要让不同厂商的AI工具能够协作,需要建立行业标准。这不只是技术标准,还涉及数据格式、协议规范、质量保证等多个层面。微软在论文中提到了一些新兴协议如Model Context Protocol,但要形成广泛采用的标准还需要整个行业的共同努力。


写在最后


微软的这篇论文,实际上是在为整个AI行业提出一个根本性的问题:我们是要继续制造更多孤立的AI工具,还是要建设真正的人机协作生态?


从技术发展的角度看,单一Agent的能力提升正在遇到边际递减的问题,而协作架构可能是下一个突破口。从用户需求的角度看,人们真正需要的不是更多的AI工具,而是能够理解并融入其工作流程的智能伙伴。


对于我们这些AI产品的开发者来说,这篇论文不只是提供了一个技术方案,更是提供了一个全新的思维框架。也许是时候停下来思考一下:我们正在构建的AI产品,究竟是在帮助用户更好地工作,还是在给他们增加新的负担?


文章来自于“Al修猫Prompt”,作者“Al修猫Prompt”。

关键词: AI , Agent , 模型训练 , 人工智能
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费)


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/(付费)

2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0