一文带你看懂,火爆全网的Harness Engineering到底是个啥。

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一文带你看懂,火爆全网的Harness Engineering到底是个啥。
8787点击    2026-04-15 14:20

最近这个词实在是太火了。


Harness Engineering。


我刷推刷到,朋友圈刷到,群里也在聊,


微信指数又莫名其妙一根穿云箭了。


几乎每隔两三天就有人来问我,卡兹克你能不能讲讲这个Harness到底是什么。


所以想了想,我还是尽我可能,花了将近一整天的时间,给大家写一下我理解的Harness Engineering到底是个啥。


大家其实不要觉得AI行业喜欢造概念或者喜欢搞抽象,主要还是AI这玩意实在变得太快了,很多东西也都是随着时间和行业的发展不断的前进的。


一个东西在24年可能还满足当时的语境,但是25年可能就不够了,因为模型的进步速度太快了,于是25年大家只能用一个新的词来解释,结果,26年,这个词又不够用了。


这个大概就是如今的现状。


跟AI跟的比较久的朋友,可能已经能猜到我上面说的是哪几个词了。


Prompt Engineering,Context Engineering。


还有今天的Harness Engineering。


这三个词,几乎完美地标记了我们跟AI协作方式的三次进化。


而我恰好,这三个阶段都亲身经历过。


从2023年大家都在研究怎么写一个好Prompt,到2025年开始研究怎么给AI更好的塞上下文,到现在2026年,大家开始聊,怎么给AI设置马具。


三年。


说短不短,说长也不长。


但回头看,这三次变化,其实都映射的,是我们人类对AI的认知。


打个游戏玩家都能秒懂的例子吧。


第一阶段,就是你在玩《只狼》这种动作游戏。


也就是每一招格挡、每一次见切都得你手搓,按一下键它出一招。


一招没按对,屏幕上就会出现巨大的死。你就是AI唯一的操作者,AI每一个动作都得你亲自按键下令,动一下回一下,也就是我们传统的ChatBot。


第二阶段,就是你在玩类似《金铲铲之战》这种自走棋。


你其实可以不用再自己手搓每一个动作了,你的活其实全在前期配置。


选英雄、凑羁绊、配装备、排站位。


配完了,棋子就自己上场打回合,你只能吃瓜看戏。而决定胜负的,全靠你前期把信息和资源喂得对不对。


这一个阶段,就是模型能力还不够强的时候的前Agent时代。


第三阶段,就类似是你在玩《全面战争》这种即时战略游戏。


场上几千个单位自己在跑,你根本摇不过来每一个兵,只能靠编队、阵型、AI指令、战场规则去驾驭整盘战局。


单位越聪明、越自主,你越得靠一整套系统去约束它们的行为。


从操作一个角色,到带一个小队,再到指挥一整支军队。


玩家的控制粒度越来越粗,AI的自主度越来越高,你需要的约束方式也越来越系统。


而这三个阶段,我觉得就对应了Prompt Engineering、Context Engineering、Harness Engineering的三次跃迁。


所以,聊Harness Engineer到底是什么,我觉得最重要的,就是你要知道这一路的跃迁究竟是什么样的。


想理解现在,最好的方式,就是读懂历史。


所以,今天这篇文章,我就希望能真的让你明白Harness Engineering到底是个啥,它的来龙去脉,以及他能解决的问题。


如果你是技术大佬,希望能给你提供一些新的思考角度,如果你是非技术的小白用户,我也会尽量让你看得明白。


话不多说,我们开始。


先从头捋。


先把时间倒回到2023年。


2022年底到2023年,ChatGPT横空出世,整个世界炸了。


我还记得23年的春节,春节回来之后,所有人都在聊ChatGPT,而那之后,那段时间最火的一个词。


就是Prompt Engineer,提示词工程师。


当时硅谷可以给Prompt Engineer开出了年薪30万美金的offer。


然后国内也是,23年的图,大家肯定都见过。


一文带你看懂,火爆全网的Harness Engineering到底是个啥。


然后当时有无数的Prompt框架出现,因为彼时模型智能水平不够,所以很多时候,模型的输出不稳定,我那时候还在做AI产品,这里可以提一嘴,国内金融领域的第一个算法备案是我拿的


我们每天做的最多的事,其实就是在Prompt上做约束,怎么设计好Prompt,能让模型输出更稳定的json格式,从而跟我的数据库进行交互。


当然,也有另一部分,就是写好Prompt约束,让模型生成更好更稳定的回答。


那个年代,同一个问题,你换一种问法,AI给你的答案质量就可能会天差地别。


比如你直接问ChatGPT“帮我写一篇关于AI的文章”,它给你吐出来的东西大概率是一坨正确的废话。


但你如果说“你是一个科技领域的资深记者,风格偏口语化,擅长用类比来解释复杂概念,现在需要写一篇3000字的文章,主题是AI对普通人生活的影响,要有具体案例,语气不要太正式”,那出来的东西就完全不一样了。


所以你看,Prompt Engineering那个年代,做的最多的事就是怎么设计Prompt,能让AI给你最好的回答。


这事儿在2023年确实是有价值的,因为那时候大模型刚出来,输出也确实不稳定,大家都还在摸索跟它交流的方式。


谁能把问题问得更好,谁把Prompt约束的更好,就能从AI那里榨出更多价值,这个技能差异是真实存在的。


但问题来了。


2024年下半年开始,一个趋势越来越明显,就是模型越来越聪明了。


你不用再像伺候大爷一样去精心构造Prompt了,Claude 3.5 Sonnet出来的时候,你随便跟它说句话,它都能理解你的意思,那个时候我记得我还写了李继刚的汉语新解,也算是一代风潮。


一文带你看懂,火爆全网的Harness Engineering到底是个啥。


那个时代,Prompt技巧的边际收益在急速下降。


因为人们发现,当模型足够聪明的时候,你怎么问已经没那么重要了。


重要的是,你问的时候,它手里有没有关于你问题的足够且合适体量的信息,在有限的性能之下,来给你一个好答案。


所以我后来甚至都发了一篇文章,我觉得那些Prompt技巧真的没啥用,核心的是6个心法:分享6个平时我最常用的Prompt心法。


至此,这就引出了第二个阶段。


2025年年中,Andrej Karpathy转发了一条推,大概意思是说,赞同把Context Engineering放在Prompt Engineering之上。


一文带你看懂,火爆全网的Harness Engineering到底是个啥。


因为在实际的工业级AI应用里,真正的活不是在那雕花一个Prompt,是需要更多的考虑工程化,要精心设计AI的上下文窗口里到底该塞什么信息。


因为那个年代,上下文窗口真的太小了。


Karpathy的原话是,Context Engineering是“填充上下文窗口的精妙艺术与科学”。


于是,Context Engineering,上下文工程,这个概念在2025年下半年迅速成为了所有做AI应用的人的共识。


因为他确实切中了当时行业人们的痛点。


在这里我还是想再次表达一下,很多时候,造词这事分两种情况,有一种我觉得就是为了炒概念,比如xxx 4.0,而有的时候,真的只是行业太快,人们更需要一个精准的表达。


词语,从来都是为表达而服务的。


Context Engineering解决的问题,就类似于你让AI帮你改一段代码,如果你只给它这段代码本身,它可能改得乱七八糟。


但如果你同时给它这段代码所在的文件、相关的依赖、项目的技术栈说明、团队的代码规范,它改出来的东西质量会高几个量级。


而如何优雅的、省Token的给出最精准的信息,就是真正的Context Engineering。


这里我依然觉得,让我学到的最多,还是Manus的25年7月18号发的那篇文章。


一文带你看懂,火爆全网的Harness Engineering到底是个啥。


到这里,其实已经比Prompt Engineering进了一大步了。


人们开始研究的是,从怎么约束单个Prompt,变成了如何在有限的上下文空间里,尽可能的给模型精准的信息。


就这样,过了又将近8个月的时间。


Harness Engineering正式登上了属于它的舞台。


如果是我自己印象中,第一次在AI领域看到关于Harness的描述,应该是去年11月Anthropic发的blog。


一文带你看懂,火爆全网的Harness Engineering到底是个啥。


这篇报告解决的核心问题是,就是如何让Agent跨越多个上下文窗口有效工作而不丢失状态。


他们把他们的Claude Agent SDK称为,"一个强大的通用Agent Harness"。


不过他们并没有用Harness Engineering这样的描述。


直到2026年2月,OpenAI的一篇Blog,把Harness Engineering写在了巨大的标题上,于是,Harness开始正式进入大众视野。


一文带你看懂,火爆全网的Harness Engineering到底是个啥。


这篇也是有价值内容极多的一篇文章。


大概说的就是,OpenAI内部有一个团队,用了五个月的时间,用Codex搭了一个将近一百万行代码的产品。


其中人类手写的代码量,是0行。


所有代码都是Codex Agent生成的,人类工程师全程没有写一行代码。


人类工程师做的工作,就是一直在做Harness Engineering。


他们在设计架构边界,制定依赖规则,写自动化测试,配置lint规则,搭建CI/CD流水线,设计反馈循环机制。


他们在建一个笼子,一个让AI Agent能在里面安全、高效、可控地干活的笼子。


这个笼子,就叫Harness。


Harness这个词,来源于马具,就是马鞍、缰绳、嚼子那一整套东西。


一文带你看懂,火爆全网的Harness Engineering到底是个啥。


马是一种非常强大的动物,速度快、力量大,但如果你不给它套上缰绳,它大概率会跑偏,甚至把你甩下来。


就像那句著名的台词:


一文带你看懂,火爆全网的Harness Engineering到底是个啥。


Harness的作用,就是把这股野蛮的力量,引导到你需要的方向上。


AI Agent就是那匹马。


模型现在本身的能力已经极其强大了,它能写代码、能做分析、能跟外部工具交互、能自主决策。


但如果你不给它套上Harness,它就会跑偏,会犯错,会在你不知道的地方搞出幺蛾子。


所以,Agent = Model + Harness。


这个公式是LangChain在博客上提出来的,我觉得这可能是2026年到目前为止,关于AI工程最精辟的一句话。


一文带你看懂,火爆全网的Harness Engineering到底是个啥。


虽然Birgitta Böckeler说这个定义很泛,但是我觉得还是很形象的。


模型是马,Harness是缰绳,光有马不行,你还得有一整套驾驭它的系统。


昨天我发的文章,其实一直在强调一个理念,叫约束先行。


其实这就是Harness Engineering中很重要的一环。


而一个真正的Harness到底长啥样呢,Birgitta我觉得写的框架我觉得还是比较清晰的。


她分成了两类控制机制。


一文带你看懂,火爆全网的Harness Engineering到底是个啥。


第一类叫Guides(feedforward controls) ,引导。


就是在AI行动之前,提前给它设好规则,让它沿着正确的方向走。


这有点像高速公路上的护栏,你不需要每一秒都去纠正司机别开到山沟沟里,因为只要护栏在那里,车就几乎不会开到山沟沟里面去。


CLAUDE.md文件就是一种Guide,代码规范文档也是,架构决策记录也是,这些东西在AI动手之前就已经在那了,它们是前馈控制。


第二类叫Sensors (feedback controls) ,检测器。


就是在AI做完事之后,用各种手段去检测它做的对不对。


自动化测试是Sensor,代码lint是Sensor,CI流水线也是Sensor,它们是反馈控制。


好的Harness,是Guides和Sensors的组合,前者防患于未然,后者亡羊补牢,两个加在一起,形成一个闭环。


而每当你发现Agent犯了一个错误,你就花时间去设计一个方案,让它永远不可能再犯同样的错误。


这就是Harness Engineer的日常。


从来都不只是在写代码,最重要的工作,其实都是在设计一个让Agent如何不再放错的系统。


就像我昨天那篇文章里面聊得,就是Claude Code的规则体系怎么从全局CLAUDE.md一层一层穿透到项目级、再到文件夹级的事,约束从上往下走,一层管着一层。


这个其实虽然非常的简单,但是底层逻辑,其实跟OpenAI在那个百万行代码项目里做的事是一模一样的。


他们强制定义了一套分层架构,Types → Config → Repo → Service → Runtime → UI,六层,每一层只能依赖它下面的层,不能反向依赖。


一文带你看懂,火爆全网的Harness Engineering到底是个啥。


有了约束,速度才不会下降,架构才不会漂移。


规则从来不是靠口头约定,是靠自动化测试来强制执行的。


如果你非要我给Harness Engineering定一个最核心的概念。


那我还是想用我昨天说的那4个字。


约束先行。


就像我们所设计的权限系统,你可以给AI Agent设置不同级别的权限,有些操作它可以自己做,有些操作它必须先问你,有些操作它绝对不能碰。


比如读文件可以它自己来,删文件必须先问,而像格式化硬盘这种操作,你永远想都别想。


所以你其实回过头来看,这三个阶段的演变很有意思。


Prompt Engineering的时代,AI是一个聊天机器人。


你跟它的交互方式是一轮对话,你说一句,它回一句。


在这个模式下,你唯一能影响输出的杠杆,就是你的Prompt,所以大家拼命研究怎么写Prompt。


Context Engineering的时代,AI变成了一个助手。


它不再只是回答问题,它开始帮你做事了,它要读你的文档,理解你的项目,调用你的工具,在这个模式下,光靠Prompt不够了,你还需要给它提供充足的上下文。


Harness Engineering的时代,AI变成了一个自主行动的Agent。


它不是在等你的指令,它可以自己在那跑,它自己写代码,自己测试,自己提交,自己部署。


在这个模式下,Context也不够了,因为Agent是自主运行的,你没法一直盯着它。


你需要一个系统来约束它、监控它、在它犯错的时候自动纠正它。


所以这三个阶段的演变,对应的其实是AI角色的三次升级。


聊天机器人 → AI助手 → 自主Agent。


而你,跟它的关系也变了。


其实我上个月也写过一篇短文,叫能用脚本就别用Agent,讲的就是脚本→Skill→Agent这个金字塔。


这个思路其实也跟Harness Engineering的理念差不多,能用确定性规则约束的地方就用规则,能用自动化检测的地方就用检测,只有那些真正需要判断力的部分,才留给Agent自由发挥。


你不会用大炮打蚊子,同样的道理,你也不该在可以用确定性规则解决的地方引入不确定性。


所以啊,其实3个时代的Engineering,从来都不是什么替代关系,而是一层一层升维、随着时代前进的嵌套关系。


Harness Engineer需要懂Context Engineering,因为给AI提供正确的上下文信息本身就是Harness的一部分。


Context Engineer也需要懂Prompt Engineering,因为最终跟AI沟通的单元还是一条条的Prompt。


每一层都没有过时,只是被更大的框架包裹住了。


那我知道,看到最后,你可能会问了,我又不是程序员,Harness Engineering跟我有什么关系?


这是个好问题,我也知道很多看我文章的朋友不是技术背景。


我自己更不是程序员出身,我是用户体验设计师。


坦率的讲,Harness Engineer这个角色,目前确实主要出现在软件开发领域,因为现如今,AI Agent目前最成熟的落地场景,那就是写代码、开发产品。


但我觉得,Harness Engineering的思维方式,其实是普适的。


比如很多朋友现在用AI做任何稍微复杂一点的事情,可能都会遇到这种问题,比如AI有时候莫名其妙就跑偏了,你得反复纠正它。


这就是缺少Harness。


比如你能不能给AI设一些规则,让它在这些规则的框架内干活?比如你让AI帮你写邮件,你能不能事先告诉它,「永远不要用感叹号结尾」「收件人是老板的时候语气要正式」「涉及数字的时候要double check」。这就是你的Harness。


比如你能不能设计一些检查点,在AI输出之后自动验证?比如你让AI帮你做数据分析,能不能设一个规则让它每次算完都自己验算一遍?这也是Harness。


20世纪的伟大科学成就之一,控制论,里面最核心的一个思想,就是任何复杂系统的稳定运行,都依赖于反馈机制。


恒温器之所以能保持房间温度恒定,从来都不是因为它知道应该是多少度,是因为它有一个传感器能感知当前温度,然后跟目标温度做比较,然后不断的进行调整。


这些思维方式,就是Harness Engineering的内核,从来不是说,让你直接做技术去写代码,是需要你思考清楚,怎么让AI在我不盯着的时候也能干好活,是如何设计一个系统,能让你不用盯着的时候,这个系统也能自己运行起来。


其实我们驯服AI的过程,真的跟人类驯服大自然的历史,也有着极高的相似度。


最早人类学会用火,你得小心翼翼地喂它柴火,火太小不行,太大也不行。这是Prompt Engineering,你的每一次输入都直接决定输出。


后来人类学会了建炉子,你把火关在一个结构里,通过调节进气口和烟囱来控制火势。这是Context Engineering,你通过设计上下文来影响火的行为。


再后来人类发明了蒸汽机,火不再是你直接操控的对象了,它在一个精密的系统里自动运行,有锅炉、有气缸、有调节阀、有安全阀,你无需再管火怎么烧,你管的是这套系统怎么设计。这是Harness Engineering。


从火焰到蒸汽机,人类花了几千年。


从Prompt Engineering到Harness Engineering,AI只花了三年。


甚至我觉得,如何使用AI演变到最后,其实就是人类历史上出现的那一门一门的古老的学科。


Harness就是控制论。


Skill其实就是分类学。


Prompt其实就是语言学。


Context其实就是信息科学。


Reasoning其实就是认知心理学。


多Agent协同其实就是管理学。


所以,很多人天天说什么文科已死,我每次都会说这是放屁,从来没有什么文科已死理科已死的。


这世界就不应该再分文理。


两端融合,才是真正的王道。


多学科融合背景,有理工科的严谨,有文科的审美。 


有结构化的理性,也有人文的洞察。


这样的人,在未来十年里,我才觉得会是整个社会里,能把AI、Agent用的最牛逼,同时也是未来最稀缺的那批人。


所以,根本不要焦虑。


Harness Engineering根本不是什么新词。


它就是人类几千年来一直在做的那一件老事。


就是怎么把一股更快、更强、更不受控的力量,安全地、持续地、可复制地,引导到我们想要的方向上去。


火是这样,蒸汽是这样,电是这样,核能也是这样。


从我们学会用火开始,那几十万年的历史。


从来都是这样。


只不过,这一次,轮到AI了。


仅此而已。


当一个东西比你更快、比你更强、比你更自主的时候,你怎么还能让它,为你所用。


这件事,你的祖先做过,你的父辈做过。


只是现在。


轮到你了。


文章来自于"数字生命卡兹克",作者 "卡兹克"。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
OWL

【开源免费】OWL是一个完全开源免费的通用智能体项目。它可以远程开Ubuntu容器、自动挂载数据、做规划、执行任务,堪称「云端超级打工人」而且做到了开源界GAIA性能天花板,达到了57.7%,超越Huggingface 提出的Open Deep Research 55.15%的表现。

项目地址:GitHub:https://github.com/camel-ai/owl

2
AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。

项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file

本地安装:https://www.deepbi.com/

【开源免费airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。

项目地址:https://github.com/hitsz-ids/airda

3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

4
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0