上下文工程(Context Engineering)现在有多火,就不用多说了吧。
Karpathy 说「Software is changing (again)」,“again” 的下一个注脚,大概率就是 Context Engineering。
今天,给大家整理了上下文工程几个优质资源,通过这波“投喂”,希望能帮助大家在 Agent 构建的实践中,对模型上下文工程有更深层次、更体系化的理解。
速览版
1.《The New Skill in Al is Not Prompting, lt's Context Engineering》
来自谷歌 DeepMind 高级人工智能关系工程师 Philipp Schmid ,偏概念介绍,提出“六层上下文”模型(指令、历史、长记忆、RAG、工具、输出格式),业内首次系统定义 CE(Context Engineering),属于入门级资料,适合开发者快速建立术语与框架。
2. 《Context Engineering for Agents》
来自 LangChain 的联合创始人兼 CEO Harrison Chase ,偏实践,主要 Agent 构建的方法论,结合 LangChain 生态,给出可落地的流程与代码,和 langchain 工具链深度绑定。
3. 《How Contexts Fail—and How to Fix Them》
来自独立研究者 Drew Breunig ,是一篇典型的反面教材 + 对策清单,帮你避免“长上下文 ≠ 高质量”误区。总结 agent 的四大死法:Poisoning / Distraction / Confusion / Clash ,并给出解决思路。
4.《A Survey of Context Engineering》
这篇 160 多页的长综述是当下最全面、最新、并且极具指导价值的参考文献之一,帮助你建立一个宏观的知识框架,适合研究者快速梳理全景与定位未来方向。
5.《Context Engineering: The Outer Loop》
来自 Chroma CTO Hammad Bashir ,是一个 YouTube 视频,30 min 演示如何用向量数据库做外循环动态上下文。
6.《AI 代理的上下文工程:构建 Manus 的经验教训》
来自 Manus 联合创始人季逸超,偏企业实战经验,介绍构建 Manus 的经验教训,包括 KV-cache 命中率、工具遮蔽等工程坑点。
7.《Practical tips on building LLM agents》
来自 Lossfunk 创始人 Paras Chopra,经验分享贴,CE 贯穿始终,附真实指标与成本考量,适合产品经理 / 创业者 12 条一线 Agent 落地心得。
8. GitHub Repo :Context-Engineering
来自独立开发者 davidkimai ,该仓库已获得 4.1 k stars ,被广泛社区认可,内部组织逻辑清晰,内容包括基础学习路径、可操作模板、进阶示例、上下文协议和代理系统等模块。
详细版
一、The New Skill in Al is Not Prompting, lt's Context Engineering
这篇博客由 DeepMind 高级人工智能关系工程师 Philipp Schmid 撰写,内容偏重概念解析,主要阐述了上下文、上下文工程与提示词工程之间的区别。
原文链接:https://www.philschmid.de/context-engineering
1. 到底什么是“上下文”?首先,我们需要扩展对“上下文”的理解。它远不止是发送给 LLM 的单次提示,而是模型在生成响应前所能感知到的一切信息总和。
一个丰富的上下文通常包括:
2. 为何它如此重要?
文中举了这样的一个例子:
当你的 AI 智能体收到一封邮件:
嘿,想和您确认明天是否有时间讨论一下。
如果你的智能体上下文贫乏,那它的回应可能死板又无用:
感谢您的消息。明天对我来说可以。请问您有什么具体的时间安排吗?”
而上下文丰富的智能体则会先收集和构建一个丰富的上下文,包括:
将这些详细、全面的上下文打包提供给大模型后,才能能生成一个真正有帮助的回应:
“嘿吉姆!我这边明天日程完全满了。你看周四上午方便吗?我已经发了一个邀请,如果时间可以的话告诉我一声。”
不需要更智能的模型或更巧妙的算法就为任务提供了更合适的上下文。
二、Context Engineering for Agents
这篇博客更偏实践性,自于 LangChain 工程师 Martin Lance,主要讲了上下文工程的的四种落地策略。
原文链接:https://blog.langchain.com/context-engineering-for-agents/
作者将上下文工程定义为是一门关于如何在智能体运行的每一步,精准地向其有限的“内存”(即上下文窗口)中填充恰当信息的艺术与科学。
这个观点和安德烈·卡帕西(Andrej Karpathy)的观点是基本一致的:
如果大语言模型(LLM)是计算机的 CPU,那么上下文窗口就是它的 RAM。RAM 的容量有限,需要操作系统来智能地管理数据。
同样,上下文工程就是智能体的“操作系统”,管理和优化输入给模型的信息。
作者发现低效的上下文管理会导致一系列问题:
为了应对这些挑战,业界目前有四种主流的上下文工程策略:写入、选择、压缩和隔离。
1. 写入:将信息保存到上下文窗口之外,以备后续使用。这就像人类在解决复杂问题时记笔记一样,帮助智能体“记住”关键信息,避免因上下文窗口限制而遗忘。
2. 选择上下文 :在需要时,将最相关的信息“拉入”上下文窗口。拥有海量的记忆还不够,关键在于精准地选择。
3. 压缩上下文 :提炼信息,只保留执行任务所必需的令牌(Tokens)。当交互轮次过多或工具返回内容过长时,压缩上下文就显得至关重要。
例如,Claude Code 在上下文窗口使用率超过 95% 时会自动运行“压缩”功能。摘要也可以应用在特定节点,比如对一个返回大量文本的搜索工具进行后处理,或在多智能体协作的交接点上进行信息提炼。
4. 隔离上下文:将复杂的任务分解,让不同的上下文在隔离的环境中发挥作用。通常有两种隔离方式:
三、How Long Contexts Fail
这篇文章主要提出了上下文管理中的一些问题,并且将问题凝练地更加深刻
原文链接:https://www.dbreunig.com/2025/06/22/how-contexts-fail-and-how-to-fix-them.html
很多人在初期使用上下文工程的时候会发现:有的时候信息越多,AI 表现越差。这主要源于“上下文混淆”和“上下文冲突”:
1. 上下文混淆:当无关信息成为“噪声”GeoEngine 基准测试中,一项针对小型模型的研究提供了典型案例。
研究人员发现,当给量化的 Llama 3.1 8B 模型提供 GeoEngine 中所有 46 种工具定义时(即使全部在 16k 上下文窗口内),模型任务失败。然而,仅提供 19 种相关工具时,模型却成功完成任务。
这揭示了一个核心问题:模型会“关注”上下文中所有信息。即使这些信息是无关细节或无用工具定义,模型仍会将其纳入考量。尽管大型模型在忽略冗余信息方面有所进步,但无价值的上下文信息仍会显著干扰 AI 智能体的性能。更大的上下文窗口固然能容纳更多信息,但也增加了模型被无关内容分散注意力的风险。
2. 上下文冲突:当 AI 被早期错误误导上下文冲突是比混淆更严重的现象,指上下文信息不仅无关,甚至相互矛盾。
微软和 Salesforce 团队的一项研究发现。他们模拟用户逐步提供信息的聊天场景,将完整提示“分片”输入模型。结果令人震惊:模型性能平均下降 39%,连 OpenAI 家的模型准确率也从 98.1% 骤降至 64.1%。
这是因为模型在对话早期基于不完整信息做出了错误假设,并过早尝试生成解决方案。这些错误的“中间步骤”残留于上下文中,与后续更完整的信息产生冲突。
“当 LLM 在对话中走错方向时,它们会迷失方向且无法恢复。”
四、A Survey of Context Engineering
一篇长达 160 页的上下文工程综述,作者梳理了超过 1400 篇文献,包含 prompt 技术、记忆体系、RAG、agent 系统等,深度广度兼备。作者按组件与系统两层结构整理领域现状,适合研究者快速梳理全景与定位未来方向。
综述链接:https://arxiv.org/pdf/2507.13334
这篇综述贡献了一种将上下文工程研究的科学分类的框架:
支柱一:基础组件-构建的核心模块和技术:
支柱二:系统实现-整合基础组件,解决现实世界问题的复杂 AI 架构:
论文提出目前上下文工程最关键研究缺口—基本不对称性:
当前模型虽在先进上下文工程技术加持下展现出强大的复杂上下文理解能力,但在生成同等复杂度的长篇输出时却表现出明显局限性。这意味着模型能“读懂”一本复杂的书,却难以“写出”同样复杂的书。弥合这种理解与生成能力之间的差距,是未来研究的重中之重。
五、Context Engineering: The Outer Loop | Hammad Bashir
Chroma 首席技术官 Hammad Bashir 的演讲,发表了他对上下文工程的看法。
原文链接:https://www.youtube.com/watch?v=vsfbplnJyA8
“如果我们无法预测它何时会出故障,那就不能称之为“工程”。
因此,我们如果想要更好地进行上下文工程,那就需要理解大语言模型的心智模型,Hammad 提出了几种理解大语言模型的思维方式:
六、Practical tips on building LLM agents
这篇博客更偏向于实战经验,提供了 6 个上下文工程的实用技巧。
原文链接:https://letters.lossfunk.com/p/practical-tips-on-building-llm-agents
1. 精细任务分块病症: 短任务成功率高,但随复杂度和耗时急剧下降。
治疗方法: 分解任务至人类 10-15 分钟(最长 30 分钟)可完成的原子化子任务,防上下文过长致模型遗忘指令。
2. 充分利用长上下文病症:廉价模型或 RAG 等成本节约方案,常导致性能下降和错误累积。
治疗方法:
(1)避免 RAG 处理代码,易混淆;直接将整个相关文件置于上下文更佳。
(2)不宜用廉价模型做“辅助工作”(如生成代码 diff),易累积错误,主模型直接“搜索替换”生成 diff,错误率已降至 5% 以下。
3. 为长周期任务构建稳固的验证系统病症: 长周期任务步骤多,错误累积风险高,易致智能体失败。
治疗方法:
(1)保持任务隔离:设计无状态、不严重依赖前序结果的流程。
(2)每步验证:任务后设验证,智能体须判断成败,防错误累积。
4. 将模型视为“失忆天才”:持续重复关键信息病症:上下文增长,模型易遗忘早期指令和信息。
治疗方法:
(1)重复待办事项:运行智能体需在上下文中反复提供任务清单,防其遗忘目标。
(2)建立“读写”学习循环:指示模型读写关键文件,将新知或中间结论写回,形成积累巩固的良性循环。
5. 赋予 LLM 读写工具:使其主动构建上下文病症: 模型工具调用能力增强,最佳实践从被动“上下文填充”转向智能体主动获取信息。
治疗方法:
(1)提供读写文件工具:让智能体像人般按需读写,而非被动接收信息。
(2)设计工具反馈机制:提供简洁有效反馈,避免撑爆上下文(如数据库查询只返回摘要,非万行数据)。
6. 关注多轮对话成本:善用 KV 缓存病症: 多轮交互智能体 token 成本呈二次方增长(如 50 轮对话成本为 2.5 单位/次,100 轮飙升至 100 单位/次)。
治疗方法:
(1)只追加,不修改上下文:多轮对话始终在末尾追加新内容,不修改历史。
(2)利用 KV 缓存:命中缓存可降成本至 1/10。长对话成本仍高,设计须考量效益
七、Manus 团队的实战总结:构建 AI 智能体的 6 个核心经验
这篇文章是 Manus AI 团队对其 AI 智能体“Manus”构建过程中的经验总结
原文链接:https://manus.im/zh-cn/blog/Context-Engineering-for-AI-Agents-Lessons-from-Building-Manus
Manus AI 团队提出了构建生产级 AI 智能体的六大实用策略:
1. 围绕 KV 缓存进行设计在生产环境中,KV 缓存命中率是决定 AI 智能体延迟和成本的最关键指标。
由于智能体任务的输入(上下文)通常远大于输出(工具调用),高效的缓存策略能带来超过 90% 的成本节约:
2. 动态管理工具:用“遮蔽”代替“增删”在任务执行中动态增删工具列表是非常不利模型生成正确答案的,工具定义通常位于上下文前部,任何改动都会使后续缓存全部失效,并可能因引用了不再存在的工具而干扰模型:
3. 将文件系统作为“无限”上下文即使是 128K 甚至更长的上下文窗口,在处理网页、PDF 等大型非结构化数据时也捉襟见肘。此外,超长上下文还会显著增加成本并引发“迷失在中间”等性能问题:
4. 利用动态任务列表维持焦点在执行包含数十个步骤的复杂任务时,智能体很容易偏离最初设定的目标,即“目标漂移”:
5. 保留失败记录,让智能体从错误中学习开发者常倾向于隐藏或清理智能体的错误尝试(如失败的工具调用、错误日志)。但这恰恰剥夺了模型从失败中学习和适应的宝贵机会:
7. 打破重复模式,避免“少样本”陷阱虽然少样本(Few-shot)示例有助于引导模型,但如果上下文中充斥着大量高度相似的“操作-观察”范例,模型会倾向于盲目模仿,导致行为僵化,在面对新情况时表现脆弱:
八、Context Engineering
来自大卫·金梅,一个全面的开源项目,属于从从原理到模板的一站式仓库,复制即用;常年更新,社区最佳实践浓缩。
最有意思的是,他创建了一个有趣的框架-上下文工程遵循生物进化的过程,非常有助于理解如何系统性地构建强大的 AI 能力。
GitHub链接:https://github.com/davidkimai/Context-Engineering
大卫·金梅从一个独特的视角来审视 AI 的构建,将上下文工程理解为五个进化层级:从原子到神经网络的逐级进化的系统。就像生命体的演化过程:从原子到分子,再到细胞、器官,最终形成复杂的神经系统。每一级都以前一级为基础,层层递进。
遗憾的是,大多数人止步于“原子”层面——即最基本的提示词。而真正的力量,在于构建一个完整的“神经网络系统”。这可以通过以下五个层次逐步实现:
第一级:原子(单个提示)
这是最基础的层面,但其精髓常被忽略。
那种“给我写一份商业计划书”式的模糊指令已经过时,它只会产出泛泛而谈的无用信息。
真正的威力在于情境化设计,即将实例、约束条件和认知工具融入上下文。
例如:
“请为一家针对 Z 世代市场的可持续时尚品牌撰写一份商业计划书。目标是获得 A 轮融资,请参考我们过去成功的营销案例(附链接),并考虑当前供应链挑战与机遇。”
提示本身并未改变,改变的是我们提供的“上下文”。上下文的丰富与精确,才是释放原子层力量的关键。
第二级:分子(少样本学习)
在丰富的上下文之上,少样本学习是真正的变革者,从“告知”AI 做什么,转变为通过“展示”教会它如何思考。
具体的示例远比冗长的解释更有效。
第三级:细胞(记忆系统)
进化过程始于此。
记忆系统赋予 AI 在对话中维持持久状态的能力,使其能够记住过往决策,并基于先前的知识进行累积和构建,从一个无状态的工具变为一个有记忆的学习者。
第四级:器官(多智能体系统)
到这个步骤,已超越简单的提示链,开始构建多智能体系统。
这如同组建一支高效的内部专家团队,其中每个智能体都拥有独立的上下文和专业知识:
第五级:神经系统(认知操作系统)——终极智能形态
这是所有前述层级的最终融合与演化,不再是简单地使用代理,而是构建一个具有以下特征的思维系统:
结语
这些研究团队的思考和实践,其实都在告诉我们同一个道理:构建强大的智能体,早已不是“提示词炼金术”的游戏,而是一门真正的系统科学—上下文工程。
它要求我们完成一次认知上的转变:从“提问者”,进化成一个“AI 思维系统”的设计师。
不再是满足于打磨单个的“原子”(提示词),而是要像生物进化一样,将它们构造成拥有记忆的“细胞”、能够协同的“器官”,最终搭建起一个可以自我优化的“神经系统”。
所以,家人们,下一次当你准备构建自己的 Agent 时,请务必跳出那个小小的提示框。开始像一位真正的工程师那样去思考,去设计你的信息流,去搭建你的“神经系统”吧 ~
文章来自公众号“夕小瑶科技说”,作者“小鹿 ”
【开源免费】OWL是一个完全开源免费的通用智能体项目。它可以远程开Ubuntu容器、自动挂载数据、做规划、执行任务,堪称「云端超级打工人」而且做到了开源界GAIA性能天花板,达到了57.7%,超越Huggingface 提出的Open Deep Research 55.15%的表现。
项目地址:GitHub:https://github.com/camel-ai/owl
【开源免费】OpenManus 目前支持在你的电脑上完成很多任务,包括网页浏览,文件操作,写代码等。OpenManus 使用了传统的 ReAct 的模式,这样的优势是基于当前的状态进行决策,上下文和记忆方便管理,无需单独处理。需要注意,Manus 有使用 Plan 进行规划。
项目地址:https://github.com/mannaandpoem/OpenManus
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装:https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址:https://github.com/hitsz-ids/airda
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。
项目地址:https://github.com/labring/FastGPT
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0