Context Engineering 2.0:在未来,一个人的本质,就是其所有上下文的总和|上海交大

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
Context Engineering 2.0:在未来,一个人的本质,就是其所有上下文的总和|上海交大
5406点击    2025-11-05 09:57

在几天前,上海交大发布了一篇名为 《上下文工程2.0:上下文工程的上下文》(Context Engineering 2.0: The Context of Context Engineering) 的重磅论文。


Context Engineering 2.0:在未来,一个人的本质,就是其所有上下文的总和|上海交大


论文开篇引用了一句发人深省的格言,巧妙地化用了马克思的名言“人的本质是其社会关系的总和”:


“A person is the sum of their contexts.” (一个人的本质,是其所有上下文的总和。)


这篇论文系统性地梳理了“上下文工程”的演进背景,首次给出了一个严谨的系统化定义,并高屋建瓴地概述了从1.0到4.0的历史概念格局。并且,研究者们深入考察了在当今实践中(Era 2.0)最关键的设计考量——从上下文的收集、管理、抽象到使用。


Context Engineering 2.0:在未来,一个人的本质,就是其所有上下文的总和|上海交大


这项工作不仅为我们提供了一张宝贵的“地图”,更是在为未来更高级别的人工智能系统研究,铺设一个坚实的概念地基。它将引领更广泛的社区,开始系统性地思考和建设AI的“上下文”。


理论基石:到底什么是“上下文”?


在深入探讨这门“艺术”之前,我们必须先回答一个本源问题:到底什么是“上下文”?如果我们的理解仅仅停留在“聊天记录”,那就大大低估了其深刻的内涵。


论文正本清源,追溯到了2001年,也就是“上下文工程1.0”时代的奠基人Anind K. Dey提出的经典定义:


Context Engineering 2.0:在未来,一个人的本质,就是其所有上下文的总和|上海交大


Context Engineering 2.0:在未来,一个人的本质,就是其所有上下文的总和|上海交大


“上下文是任何可用于描述某个实体状况的信息。而实体,则是与用户和应用程序交互相关的任何人、地点或物体,包括用户和应用程序本身。” (Context is any information that can be used to characterize the situation of an entity. An entity is a person, place, or object that is considered relevant to the interaction between a user and an application, including the user and the applications themselves.)


这个定义为我们揭示了三个关键点:


Context Engineering 2.0:在未来,一个人的本质,就是其所有上下文的总和|上海交大


  1. 上下文是“任何信息”:它远不止文本。你的地理位置、现在的时间、设备的状态(电量、网络情况)、周围环境的声音、甚至你的心跳,都可以是上下文。
  2. 上下文是围绕“实体”的:实体是交互的核心参与者。当我们向AI下一个指令时,实体至少包括:你(用户)AI应用本身你所处的环境(操作系统、文件目录)AI可用的外部工具,以及AI模型自身
  3. 上下文是服务于“交互”的:只有与当前交互“相关”的信息,才构成有意义的上下文。


让我们用一个具体的例子来理解。当你在一个AI终端(比如Gemini CLI)里输入“帮我总结一下这个项目里的所有.md文件”时:


  • 实体:你(用户)、Gemini CLI(应用)、你的电脑(环境)、文件系统(外部工具)、后端的Gemini Pro模型(模型)。
  • 上下文
  • 用户上下文:你输入的指令文本“帮我总结一下...”。
  • 应用上下文:CLI应用的系统提示词、版本号。
  • 环境上下文:当前的工作目录路径、操作系统类型。
  • 工具上下文:CLI可以调用的read_filelist_directory等工具的定义和描述。
  • 历史上下文:你和CLI之前的对话记录。
  • 模型上下文:Gemini Pro模型自身的知识和能力边界。


所有这些信息加在一起,才构成了AI完成这次交互所需面对的、完整的“上下文”


什么是上下文工程?AI的“熵减”艺术


论文提出了一个深刻的洞见:上下文工程的本质,是一门关于“熵减”的艺术。


“熵”在信息论中代表着不确定性。人类之间的交流是高效的,因为我们共享着海量的背景知识、文化习俗和情感默契。当朋友对你说“老地方见”,你不需要他提供精确的经纬度。你的大脑会自动利用你们之间的“上下文”(过去的经历、共同的偏好)来消除不确定性(熵减),从而理解“老地方”的具体含义。


Context Engineering 2.0:在未来,一个人的本质,就是其所有上下文的总和|上海交大


但机器没有这种与生俱来的“常识”。对于AI来说,世界是高熵的、充满不确定性的。因此,上下文工程的核心,就是人类需要付出努力,将高熵(模糊、复杂、非结构化)的人类意图和外部信息,转化为低熵(清晰、简单、结构化)的、机器可以理解和处理的形式。


这篇论文构建了一个宏大的历史框架,将这门艺术的演进划分为四个时代,其核心驱动力在于机器智能的飞跃,以及随之而来的人机交互成本的转移。


Context Engineering 2.0:在未来,一个人的本质,就是其所有上下文的总和|上海交大


1.0 时代 (1990s-2020):人适应机器。 在这个原始计算时代,机器只能处理菜单、按钮等极其结构化的信息。人类必须将自己的复杂意图“降维”去迎合机器,交互成本几乎完全由人类承担。


Context Engineering 2.0:在未来,一个人的本质,就是其所有上下文的总和|上海交大


  • 2.0 时代 (2020-至今):机器开始适应人。 以大语言模型(LLM)为标志,机器开始能“读懂”自然语言。它能自己消化一部分信息的不确定性。我们的工作,从“指令翻译官”变成了“上下文设计师”,通过提示工程(Prompting)、检索增强生成(RAG)、工具调用(Tool-use)等手段,为AI提供更高质量的“原料”。
  • 3.0 时代 (未来):人机自然协作。 AI将拥有与人类相当的上下文理解能力,能像一个真正的“同事”一样,无缝融入我们的工作流,理解社交暗示和情绪状态。
  • 4.0 时代 (猜想):机器超越人。 AI拥有“上帝视角”,比我们自己更懂我们的潜在需求。它不再被动地消费上下文,而是主动为我们构建和揭示新的上下文,激发我们的灵感。


上下文管理:构建AI的“第二大脑”


如果说LLM是AI的“中央处理器(CPU)”,那么上下文就是它的“内存(RAM)”。但与计算机不同,AI的“内存”是流动的、异构的、且容量有限的。论文的核心之一,就是详细阐述了如何为AI构建一个高效的“第二大脑”来管理这些上下文。


上下文抽象 (Self-Baking):从死记硬背到形成“知识”


这是将AI从“学徒”变为“助理”最关键的一步。一个只会记录所有原始信息的AI,很快就会被信息的洪流淹没,这被称为“上下文过载”(Context Overload)。“Self-baking”(自我烘焙)就是AI主动将原始、杂乱的情节记忆(比如一次完整的对话历史)提炼、压缩成结构化的语义记忆(比如这次对话的核心结论和关键事实)的过程。


Context Engineering 2.0:在未来,一个人的本质,就是其所有上下文的总和|上海交大


论文总结了四种主流的“烘焙”技术:


  1. 自然语言总结:最简单的方法。AI定期将过去的上下文总结成一段话。优点是灵活,但缺点是缺乏结构,可能丢失细节。
  2. 固定格式提取 (Fixed Schema):结构化的进阶版。AI将信息填入一个预设的模板中。论文以AI代码审查工具CodeRabbit为例,它在审查前,会先构建一个包含“跨文件依赖、历史PR信息、团队规则”的结构化案例文件。这使得AI能基于一个完整的系统视图来做判断,而不是孤立地看几行代码变动。这极大地提升了推理的有效性和可靠性。
  3. 层级记忆 (Hierarchical Memory):模拟人类的思维方式,构建一个从具体到抽象的金字塔。原始信息在底层,越往上越是高度概括的知识。新信息从底层进入,最重要的信息会被“烘焙”到更高层,从而在有限的上下文窗口和无限增长的信息之间取得平衡。
  4. 向量压缩 (Embeddings):将信息编码成数学向量。这种方法非常适合进行语义相似度搜索,但其“黑箱”特性也意味着我们失去了对AI记忆的直接可读性和编辑能力。


上下文隔离:AI如何做到“专注”与“分工”


在处理复杂任务时,如果所有信息(任务目标、文件内容、工具输出、错误日志)都混在一个上下文窗口里,AI很容易“分心”或“混乱”。“上下文隔离”就是为AI创造一个有序工作环境的关键。


  • 子智能体 (Sub-agent):论文以Claude Code的实现为例。系统有一个作为“项目经理”的主智能体,它可以根据任务需要,派生出多个拥有独立上下文窗口、独立系统提示和独立工具权限的“专家”子智能体。比如,一个子智能体专门负责“代码静态分析”,另一个负责“运行单元测试”。主智能体只负责分派任务和整合结果。这种分工协作模式,极大地提高了复杂任务的成功率和系统的稳定性。
  • 轻量级引用 (Lightweight References):当需要处理大文件或长篇日志时,把全部内容塞进上下文窗口是极其愚蠢且昂贵的。HuggingFace的CodeAgent采用“沙箱”机制,将庞大的输出存储在外部沙箱里,只在上下文中保留一个简短的“引用”(比如文件名或一个ID)。当AI需要时,再通过这个引用去按需调取完整数据。这是一种极其高效的“Token节省”技巧,是长上下文处理的基石。


多模态上下文处理:超越文本的挑战


我们当下面临的上下文,正变得越来越“五花八门”。它不再仅仅是文本,而是包含了图像、音频、视频、代码、乃至各种传感器数据的“大杂烩”。一个核心的挑战随之而来:这些不同模态的信息,在结构、信息密度和时间动态上完全不同,AI要如何将它们融合成一个统一、连贯的理解?


Context Engineering 2.0:在未来,一个人的本质,就是其所有上下文的总和|上海交大


研究者总结了当前(2.0时代)处理这一挑战的三种主流策略:


  1. 映射到可比较的向量空间:这是“通感”的基础。系统使用不同的“编码器”将文本、图像等不同模态的信息,分别转换成数学向量,然后通过一个学习到的“投影层”,将这些来自不同空间的向量,映射到一个共享的、可比较的向量空间中。在这个共享空间里,语义上相近的内容(比如文字“狗”和一张狗的图片)在空间中的位置也会更接近。
  2. 混合多模态进行自注意力计算:这是更深度的融合。在被映射到共享空间后,来自不同模态的Token(比如代表文本的词和代表图像块的补丁)会被“打包”在一起,送入一个统一的Transformer结构中。在这个结构里,文本Token和图像Token在每一层都会相互“关注”(Attention),从而实现细粒度的跨模态对齐和推理。这使得模型能够理解“文本中的哪句话对应图像中的哪个区域”这类精细的对应关系。
  3. 使用交叉注意力机制:这是一种更灵活的“主从式”关注。它允许一个模态(如文本)作为“查询方”,去直接关注另一个模态(如图像)的特定部分。例如,在回答“图片中穿红色衣服的女孩在做什么?”这个问题时,模型可以利用文本中的“红色衣服的女孩”作为查询条件,精准地将注意力聚焦到图像的相关区域上,从而得出答案。


上下文使用:从“独白”到“交响乐”


管理好上下文只是第一步,如何让AI在推理和协作中高效地“使用”这些上下文,是更高阶的艺术。


Context Engineering 2.0:在未来,一个人的本质,就是其所有上下文的总和|上海交大


智能体间的“沟通语言”


当多个AI智能体协同工作时,它们如何高效、无误地传递信息?这决定了它们是一个“团队”还是一个“乌合之众”。


  1. 接力式提示词:前一个智能体将思考过程和结果写成自然语言,作为后一个智能体的输入。这就像AutoGPT等早期智能体的工作方式,简单但信息在传递中容易失真。
  2. 结构化消息:智能体之间通过预定义格式(如JSON)的“信件”来沟通。这更可靠,但需要预先设计好通信协议。
  3. 共享内存/黑板:这是更高级的异步协作模式。所有智能体都往一个公共的“黑板”上读写信息。论文特别提到了更前沿的图结构化内存,例如Task Memory Engine (TME) 将推理过程表示为“任务图”,而G-Memory则将记忆建模为“语义图”。这种图结构能够清晰地表达任务步骤间的依赖关系和知识间的逻辑关联,使得AI能够进行更可靠、更长程的复杂推理。感兴趣您可以看下


Context Engineering 2.0:在未来,一个人的本质,就是其所有上下文的总和|上海交大


Context Engineering 2.0:在未来,一个人的本质,就是其所有上下文的总和|上海交大


上下文选择:AI的“主动注意力”


论文提出了一个至关重要的观点:“在注意力机制之前的注意力”。LLM内部的自注意力机制是被动的,你给它什么它就看什么。而上下文选择,则是在信息进入LLM之前,主动地、智能地筛选出“什么信息值得被关注”。


论文引用了一个惊人的经验观察:当上下文窗口填充超过50%时,AI的编码性能往往会下降。 这雄辩地证明了“上下文并非多多益善”。过多的无关信息会形成噪音,稀释关键信号,干扰模型的判断。


因此,有效的筛选至关重要。除了常见的“语义相似度”搜索,论文更强调了 “逻辑依赖”。系统需要能识别出“当前步骤的输入依赖于上一步的输出”,从而构建一个有逻辑关系的上下文链条,而不是一堆零散的相关片段。


新兴工程实践:来自顶尖团队一线的“黑魔法”


论文最接地气的部分,莫过于总结了大量来自一线的、堪称“黑魔法”的工程实践。这些技巧对于任何AI开发者都极具价值:


  • KV缓存的极致利用:为了省钱和加速,系统提示词的开头部分必须保持绝对稳定,哪怕增加一个动态的时间戳,都可能导致整个昂贵的KV缓存失效。
  • 工具设计的艺术:工具描述必须清晰、无歧气。论文引用了一个惊人发现:对于DeepSeek-v3模型,当工具集超过30个时性能开始下降,超过100个时几乎必然失败。这说明工具并非越多越好,而是需要精心设计和管理。
  • 要珍视“错误”:不要在上下文中隐藏或删除AI犯过的错误!让模型看到自己的失败,是它学习如何修正和改进的关键。这颠覆了我们希望AI永远“表现完美”的直觉。
  • 打破“思维定势”:在Few-shot示例中,如果例子都太相似,模型会倾向于无脑模仿。可以人为地在示例中引入一些微小的、结构化的变化(如改变措辞、顺序),以“扰动”模型,迫使其更深入地思考而不是简单地复制模式。
  • todo.md的妙用:在执行长任务时,除了维护一个todo.md文件,还应该让AI在更新文件时,用自然语言“复述”一遍核心目标。这能巧妙地将长期目标“拉回”到模型的近期上下文中,防止它在复杂的执行过程中“跑偏”或“遗忘”。


对AI工程师的启示:从“调参师”到“AI架构师”


这篇论文对所有AI从业者都提出了一个深刻的挑战和机遇:我们的角色正在发生转变。


过去,我们很多时候是“模型调参师”,关心的是学习率、网络层数等。现在,我们必须成为“AI架构师”或 “上下文架构师”。我们需要将目光从模型本身,扩展到整个信息流和记忆系统。


  1. 超越Prompt工程:精心设计一个Prompt很重要,但设计一个能动态管理Prompt、记忆和工具的系统,重要性要高出一个数量级。
  2. 设计“上下文原生”应用:未来的杀手级AI应用,必然是“上下文原生”的。它们从设计之初就应该考虑:用户的长期偏好如何存储?任务的中间状态如何管理?多轮交互的上下文如何压缩和抽象?
  3. 将“可解释性”置于核心:一个无法解释其决策来源(即无法追溯其上下文)的AI系统,是不可信的。我们需要构建能够清晰展示其“记忆链”和“推理链”的系统。


写在最后:让“上下文”成为“你”?


论文在结尾部分,将讨论提升到了一个令人深思的哲学高度。


它引用马克思的名言“人的本质是其社会关系的总和”,并将其引申到数字时代:一个人的本质,是否正在变成其所有数字上下文的总和?


我们与AI的每一次对话,我们在数字世界留下的每一个痕迹,都在构建一个庞大的、关于“我们是谁”的上下文数据库。研究者提出了一个震撼性的观点:“人类心智或许无法上传,但人类的上下文可以。


这意味着,这个由你的语言风格、决策模式、知识边界和情感反应构成的“上下文集合”,可以脱离你的物理身体而存在。在你离开后,一个AI可以加载你的“终身上下文”,继续以“你”的方式与世界互动,延续你的“数字存在”(Digital Presence)。


这引出了一系列终极问题:这个“数字化的我”还是“我”吗?为“终身上下文”设计的“语义操作系统”,应该由谁来定义“记忆”和“遗忘”的规则?当AI的智慧大厦完全建立在我们个人和群体的上下文之上时,我们与AI的关系又将走向何方?


《上下文工程2.0》没有给出答案,但它为我们提供了一张至关重要的地图。它冷静地告诉我们,通往更高级别人工智能的道路,并非仅仅是堆叠更多的计算资源和数据,而是要回到那个最古老、也最核心的问题上:我们如何理解世界,以及我们如何让机器也学会理解世界。


而这一切的起点和终点,都在于那看似无形、却无处不在的——上下文


文章来自于“AI修猫Prompt”,作者 “AI修猫Prompt”。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

4
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI

5
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0