Prompt、Context engineering 又向前进化了,3个关键维度+5个具体杠杆 |谷歌

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
Prompt、Context engineering 又向前进化了,3个关键维度+5个具体杠杆 |谷歌
7564点击    2025-12-16 09:59

我们正处在一个AI Agent(智能体)爆发的时代。从简单的ReAct循环到复杂的Multi-Agent Swarm(多智能体蜂群),新的架构层出不穷。但在这些眼花缭乱的名词背后,开发者的工作往往更像是一门“玄学”,我们凭直觉调整提示词,凭经验增加Agent的数量,却很难说清楚为什么某个架构在特定任务上表现更好。


Prompt、Context engineering 又向前进化了,3个关键维度+5个具体杠杆 |谷歌


最近,来自Google Cloud AI的研究者Philip Stephens和Emmanuel Salawu发表了一篇极具分量的论文。他们做了一件工程界急需的事情:将这些凭直觉设计的Agent架构,统一到了一个严谨的“概率数学框架”之下。


Prompt、Context engineering 又向前进化了,3个关键维度+5个具体杠杆 |谷歌


这篇文章将带您深入剖析这篇论文。看看谷歌是如何用数学语言重新定义ReAct、控制流(Control Flow)和多智能体协作的。


一切皆概率:Agent的本质是什么?


在深入各种花哨的架构之前,研究者首先回归了原点:Agent到底是在做什么?


无论您的Agent是在写代码、做客服,还是在玩游戏,它的终极目标只有一个:在给定初始背景(Context)的情况下,最大化执行正确动作序列的概率。


核心公式:概率链


研究者提出,Agent的运行过程本质上就是一条概率链(Probability Chain)


Prompt、Context engineering 又向前进化了,3个关键维度+5个具体杠杆 |谷歌


这就好比您在走迷宫,每一步的选择都取决于您当前的位置和您之前的记忆。数学上,我们可以这样描述:


Prompt、Context engineering 又向前进化了,3个关键维度+5个具体杠杆 |谷歌


这个公式告诉我们:


  • c:是初始的上下文(Context),比如用户的原始需求。
  • a:是动作(Action),是我们希望Agent采取的一系列步骤。
  • s:是状态(State),它随着每一步的执行而更新。


为什么这很重要?


将Agent视为概率链,意味着我们的设计工作不再是“教模型说话”,而是“操纵概率”。


如果您设计的架构(无论是加更多的Agent还是改Prompt),不能在数学上提高这个概率值,那么这种设计就是无效的。这为我们评估不同架构提供了一把通用的标尺。


解构ReAct:为什么“思考”有用?


目前最流行的Agent模式莫过于ReAct (Reasoning + Acting)。也就是让模型在行动之前先生成一段“Thought”(思考)。但您有没有想过,为什么多生成一段文字(思考),就能提高任务成功率?


研究者给出了数学上的解释。


引入“思考”变量


在ReAct框架中,概率公式发生了变化。我们在状态s和动作a之间,插入了一个中间变量t(Thought)。


Prompt、Context engineering 又向前进化了,3个关键维度+5个具体杠杆 |谷歌


新的概率核心变成了:


Prompt、Context engineering 又向前进化了,3个关键维度+5个具体杠杆 |谷歌


这意味着:


Prompt、Context engineering 又向前进化了,3个关键维度+5个具体杠杆 |谷歌


研究者指出,ReAct的本质就是通过引入t,来提高选择正确a的条件概率。


ReAct的致命弱点:随机游走


虽然ReAct很有效,但论文中也毫不客气地指出了它的缺陷。


Prompt、Context engineering 又向前进化了,3个关键维度+5个具体杠杆 |谷歌


从数学上看,标准的ReAct循环本质上是一种“随机游走”(Random Walk)。


  • 它非常灵活,没有任何预设的路径。
  • 但也正因为缺乏约束,它很容易出现“不收敛”的情况。
  • 表现出来的症状就是我们常说的“幻觉循环”:Agent在错误的路径上越走越远,拉不回来了。


这就是为什么我们需要更复杂的架构,比如控制流或多智能体。


概率优化的三大战略维度


Prompt、Context engineering 又向前进化了,3个关键维度+5个具体杠杆 |谷歌


Prompt、Context engineering 又向前进化了,3个关键维度+5个具体杠杆 |谷歌


Prompt、Context engineering 又向前进化了,3个关键维度+5个具体杠杆 |谷歌


1. Prompt Engineering (提示工程)


Prompt、Context engineering 又向前进化了,3个关键维度+5个具体杠杆 |谷歌


通俗理解: 如果把Agent比作考生,Prompt Engineering就是给考生发的“试卷说明书”。在简单模式下,整场考试只有一份说明书;在高级模式下,每一道大题都有一份专门定制的说明书。


2. Context Engineering (上下文工程)


Prompt、Context engineering 又向前进化了,3个关键维度+5个具体杠杆 |谷歌


通俗理解: 这是考生的“草稿纸管理策略”。ReAct是把所有草稿不加筛选地往下写,越写越乱;Context Engineering则是每做完一题,就整理、擦除或总结草稿,确保下一题开始时思路清晰。


3. Inference Algorithms (推理算法)


Prompt、Context engineering 又向前进化了,3个关键维度+5个具体杠杆 |谷歌


通俗理解: 这是考生的“解题大脑”。你可以选择全程用“快思考”(直觉),也可以强制要求在某几步使用“慢思考”(列提纲、反复推敲、自我反思)。Inference Algorithms就是决定在什么时候用哪种脑子的策略。


Prompt、Context engineering 又向前进化了,3个关键维度+5个具体杠杆 |谷歌


设计者的工具箱:5个“自由度”


这篇论文最精彩的部分,在于它提出了“自由度”(Degrees of Freedom)的概念。这张图在网上很火。


Prompt、Context engineering 又向前进化了,3个关键维度+5个具体杠杆 |谷歌


研究者认为,无论您在构建什么样的Agent,您手中真正能调节的“旋钮”其实只有5个。不同的架构(ReAct vs Multi-Agent),无非就是对这5个旋钮的不同配置。


让我们逐一拆解这5个优化杠杆:


Prompt、Context engineering 又向前进化了,3个关键维度+5个具体杠杆 |谷歌


Prompt、Context engineering 又向前进化了,3个关键维度+5个具体杠杆 |谷歌


Prompt、Context engineering 又向前进化了,3个关键维度+5个具体杠杆 |谷歌


Prompt、Context engineering 又向前进化了,3个关键维度+5个具体杠杆 |谷歌


Prompt、Context engineering 又向前进化了,3个关键维度+5个具体杠杆 |谷歌


架构大比拼:用“自由度”看世界


有了上面这套理论,我们再来看现在的各种Agent架构,视野就完全不同了。研究者在论文中通过对比表格,清晰地展示了各架构的本质区别。


Prompt、Context engineering 又向前进化了,3个关键维度+5个具体杠杆 |谷歌


ReAct:被锁死的自由度


Prompt、Context engineering 又向前进化了,3个关键维度+5个具体杠杆 |谷歌


Control Flow(控制流/工作流):人为的约束之美


现在流行的LangGraph或各种Workflow工具,在数学上是在做什么?


  • Prompt动态,到了“写代码”的节点,就换上“程序员”的Prompt;到了“测试”节点,就换上“测试员”的Prompt。
  • Actions分区,在特定节点,只暴露特定的工具。
  • 数学含义:通过人为地“分割”动作空间和状态空间,我们强制将概率集中在正确的路径上,消除了“随机游走”的不确定性。


Multi-Agent(多智能体):开启新的维度


多智能体不仅仅是把任务拆分,它引入了一个全新的优化维度,协作(Collaboration)


多智能体协作的数学本质


这是论文最核心的理论贡献之一。研究者问了一个深刻的问题:为什么两个Agent配合往往比一个超级Agent更好?


Prompt、Context engineering 又向前进化了,3个关键维度+5个具体杠杆 |谷歌


什么是协作概率?


Prompt、Context engineering 又向前进化了,3个关键维度+5个具体杠杆 |谷歌


Prompt、Context engineering 又向前进化了,3个关键维度+5个具体杠杆 |谷歌


公式如下: 


Prompt、Context engineering 又向前进化了,3个关键维度+5个具体杠杆 |谷歌


Prompt、Context engineering 又向前进化了,3个关键维度+5个具体杠杆 |谷歌


协作即“搜索”


这听起来很抽象,但请您这样理解: 协作和协商(Negotiation),本质上是在搜索最优的通信上下文


Prompt、Context engineering 又向前进化了,3个关键维度+5个具体杠杆 |谷歌


研究者指出,这种“通过对话来动态调整上下文”的能力,实际上是在运行时(Runtime)动态微调系统的参数,而不需要重新训练模型。这就是多智能体系统强大的数学根源,它增加了一个巨大的、可优化的参数空间。


现实的考量:协作是有代价的


虽然多智能体协作听起来很美,但研究者非常冷静地泼了一盆冷水:协作是有成本的(Collaboration Costs)。


您增加的每一个Agent,每一次交互,都会带来:


  1. 延迟(Latency):网络请求和生成的耗时。
  2. 算力消耗(Tokens):真金白银的成本。
  3. 复杂性(Complexity):系统越复杂,越容易出错。


正则化目标函数


为了解决这个问题,论文提出了一个修正后的目标函数。我们在设计Agent时,不能只看成功率,还要看“性价比”。


Prompt、Context engineering 又向前进化了,3个关键维度+5个具体杠杆 |谷歌


Prompt、Context engineering 又向前进化了,3个关键维度+5个具体杠杆 |谷歌


这个公式提醒我们:不要为了追求1%的概率提升,而引入过度复杂的协作流程。 一个优秀的Agent架构师,应该在这个公式中找到平衡点,设计出既高效又经济的系统。这也是上周五的文章中介绍的观点,感兴趣您可以看下:


Prompt、Context engineering 又向前进化了,3个关键维度+5个具体杠杆 |谷歌


总结:从艺术走向工程


读完这篇论文,最深刻的感受是它为AI Agent领域带来了一种秩序感。每一个决策是拆分Prompt,还是增加Agent交互,都可以映射到概率链上的具体变量。


希望这篇文章能帮助您透过数学的视角,重新审视您手中的Agent代码。下一次当您在优化Agent时,您调整的不再仅仅是文字,而是那条精妙的概率链。


文章来自于“AI修猫Prompt”,作者 “AI修猫Prompt”。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

4
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

5
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0