今年开年以来,不管是硅谷、还是国内的 AI 投资圈子,都不太敢投 AI 应用了。
基础模型每个月都在变强,所有建在模型之上的应用公司都变成了一层迟早会被吞掉的「薄壳」。
似乎,除了算力和前沿模型外,什么都不值得投了。硅谷管这种现象叫「AI 绝望论」,投资人不如把钱全砸进 Anthropic 和 Nvidia,然后回家躺平。
硅谷知名投资人、也是 Conviction 的创始人 Sarah Guo 写了一篇文章《The Untrainable》,说她并不认同这套逻辑。
她觉得,这套逻辑只对了一半:凡是能被 Benchmark 测量的工作,都已经走在通往商品化的路上。模型前沿实验室和开源蒸馏模型会从上下两头同时吃掉这些「可读的工作」。
凡是可衡量的,皆可被训练;凡是可训练的,终将被商品化。
但,真正有价值的工作是天生「不可读」的,它的正确性只存在于某家公司的私有数据里,锁在外人进不去的系统中,需要靠许可、问责、信任和长期集成才能建立。
真正值钱的工作,从一开始就是 benchmark 测不出来的。而这一部分,就是模型够不到的少数地方。
当智能开始变得更便宜时,真正的价值会持续滑向模型够不到的少数地方。
尤其是对于应用公司来说,他们的机会是在「不可读」价值上建立商业模式,能在一个行业里定义什么是好,往往是因为这个行业已经在用你了,而这些公司是靠真实采用的硬仗挣来的这种资格。
不要在别人的 Benchmark 里卷,去定义你自己的 Benchmark。
2026 年中,投资圈流行起一种了新型「AI 绝望论」。
这是一种深深的绝望:似乎除了 Anthropic 和 Nvidia,什么都不值得投了,不如把钱全砸进这两家,然后回家躺平。
但我从来没这种感觉。
我已经连续好几个小版本都确信模型比我聪明,我也乐意按市价买入 Anthropic 和 Nvidia,我身边最聪明的朋友们也都笃信自我改进很快就会成真,但我依然不绝望。
这种绝望并非毫无道理。它的逻辑是这样的:如果模型在每件事上都越来越强,那么所有建立在模型之上的公司都不过是一层「薄壳」(thin wrapper),早晚被吞掉,唯一能活下来的价值只剩算力和前沿模型权重。
听上去很有说服力。但我想说的是:它对了一半,也错了一半。
软件工程,是这套绝望论最爱拿来举例的领域。
2024 年 Devin 发布时,在 SWE-Bench 上只解决了 13% 的任务,被普遍嘲笑。一年半后,最好的智能体冲到 80% 多,并且已经在高盛和美国陆军内部承担真实工作。几乎所有人都得出了同一个错误结论:模型把软件工程吃掉了。
但当模型吞下软件工程中最容易被测量的那部分时,我们也在重新认识许多团队早已知道的事,工程一向抗拒测量,而最容易测量的部分,未必是唯一重要的部分。
MIT 的 Mert Demirer 和合作者最近用数字给出了答案:在超过 10 万名开发者的样本里,最新的 coding agents 让代码写出量提升了约 180%,但真正上线发布的代码只多了约 30%。
写代码变便宜了,但剩下的那一大段,仍然要靠人来解决,而且这一段才是关键。当然,整体净影响仍然惊人。
为什么编码智能体最先成熟?因为它的对错可以被免费验证:
凡是能被测量的东西,就能被训练;能被训练的东西,最终都会被模型吃掉。
但这里有一个关键问题:通过单元测试,从来不等于改对了。
一个十年的老代码库,其中某个模块存在的三个理由没人写过文档,部署流水线靠一个没人愿意承认是自己写的 cron job 撑着。在这种环境里,「对不对」根本不在排行榜上。Google 那种规模的系统,没人会跑完单元测试看到一排绿勾就敢上线,你信任它是因为它扛过了多年真实流量。
这种正确性不仅是私有的,更是资本无法压缩的「慢护城河」。连最乐观的人都承认,时钟是无法被跳过的。OpenAI 推理模型的开拓者 Noam Brown 最近写道:要评估一个智能体在一年时间尺度上是否靠谱,唯一可靠的办法,可能就是让它真的跑一年。
正如 Gabe Pereyra 所说,真正的自动化不只是模型变强。它是产品、模型、工作流、公司四者一起向前移动,而后三者跑的是组织的速度。
推动人,是任何基准都无法触及的部分:让一位心存疑虑的合伙人改变她处理案件的方式,让一支团队在重构中不散架。这就是为什么招 CEO 时,搞定人的能力至少和分析能力同等重要。反馈是模糊的,时间尺度是数年的,信任归属于某个具体的人。更聪明的模型,并不会改变这个权重。
我认识的每一家公司,都让所有工程师用上了前沿编码模型,但没有一家公司以接近那个速度改造了自己的工程组织。采用只用了一个季度,那真是 token 消耗爆炸式增长的、神奇的一个季度!但工程组织的重构,要花好几年。
可以总结成一句话:可被读出的,正在被带走;剩下的,才是真价值。
我的朋友、Rippling 的 Matt MacInnis 有个很好的说法:一个 token 用来回答通用问题,几乎一文不值,因为谁家的模型都能答;而一个 token 用来在你公司的数据上推理,价值高得多,因为它做的是你真正想要的事,而不是听上去合理的事。
「可读的工作」会从两个方向被吃掉:
从下面,被开源模型蚕食。任务一旦能被廉价验证,买家就不再问「用的哪个模型」,只问「多少钱」。工作就掉给当周最便宜的开源或蒸馏模型。
从上面,被实验室吞并。实验室在让模型把自己的脚手架一起「吸收」下去,检索、便宜/贵的调用路由、工具使用、推理策略,所有过去包在模型外面的东西,都在被拉进权重里。直到外壳本身就是模型。这就是所谓的 absorption frontier(吸收边界),模型能力的边界在不断向外推。
那么剩下什么?我们可以问任何一类工作两个问题:
把这两点和任务饱和度交叉,就是一个 2×2 矩阵:

你能从那些服务 AI 原生先锋的推理云上看到这一点:绝大多数 token 不是由通用开源模型生成的,而是来自定制模型。
通往这块地的墙有多高,差别很大。一个开发者的玩具代码库标准、可移植,墙很矮。一家银行的生产系统呢?你不会因为在 SWE-Bench 上聪明 2% 就拿到 root 权限。
能力会吃掉很多东西,但更强的模型不会让「私有真相」(private ground truth)变成公开真相。它持不了执照、签不了责任书、拥有不了公司的文件、出事时也没法被起诉。
瓶颈不在智力。瓶颈是许可,是问责。你可以想象一个远比任何人都聪明的模型,它仍然必须被允许进门,仍然要有人在它做的事上署名。
这扇门有两把锁。
锁是环境:你只有在被信任进入一个系统之后,经过安全审查、完成集成、签下责任合同,才能去验证 AI 在其中是否真的做了有用的事。
插销是用户:今天大多数美国医生每天打开 OpenEvidence,再多算力也买不来这个习惯。哪怕一家实验室明天能训出一个完美的医疗模型,也挤不进医生的工作流,也进不了 UCSF(加州大学旧金山分校)的决策链路。因为信任是慢慢长出来的,靠关系、靠用户的默许,而不是会抹去这些关系的梯度下降(gradient descent)。
一个应用要在「不可训练之角」挣到位置,靠的是不光鲜的脏活:
带来这种「翻译」的公司,最难被复制,而且翻译永远做不完。
举个例子:在一家顶级精英律所,光是 M&A(并购)业务一年就有近一千笔交易。你不可能让几百个 associate 各自把客户文件下载到桌面,再让一个通用 Agent 去啃,保密、合规、风控,十几条理由都不允许。就算允许,你学到的也只是一堆碎片:一次一个 associate 的修订,没人能看到整笔交易的全貌。
真正的信号在「交易」层面,而每种交易都有自己的形态:M&A 有 NDA、term sheet、尽调、购买协议、附件、交割清单;IP 诉讼则是动议、证据开示、在先技术、更多动议。每个业务领域都有自己的「形状」,律师不通用,工具也不通用。
而律所真正要解决的问题,比这些还高一层:让所有业务线并行运转,就像一个顶级合伙人同时操盘几百宗 case,还要拓展新业务、培养 associate。
改造这样一家律所,不是一个能写出 evals 的任务。它需要一个运营者去「moneyball」它,在中间目标极度模糊、反馈极不完整、时间跨度极长、环境从不静止的情况下,硬干出来。
*moneyball 来自 2003 年 Michael Lewis 的同名畅销书《Moneyball》,这里比喻在一个看似混乱、无法用传统办法量化、所有人都凭感觉在做事的领域里,用系统化的数据、判断和重新设计的指标,把隐藏的价值挖出来。
正因为「不可读的价值」很难证明,所以它也很难卖,公司自己都判断不了 AI 会不会改造它的运营,基准更判断不了。
最强的公司干脆不再向外部证明,而是先进去,然后按结果定价:
哪怕是被所有人称为「纯商品」的 token 服务,也并不真像商品。最强的 AI 原生公司会把推理集中在一两家供应商(比如 Baseten 或 Fireworks),因为单 token 价格按部就班地商品化了,但真实流量下的可靠性、对稀缺算力的优先访问权,并没有商品化。
有人会问:实验室是你的供应商,凭什么不能自己亲自下场、低价倾销把你耗死?
这才是绝望论的「硬核版本」。但它只在「模型层是单人游戏」时才成立。
而现实显然不是,模型层更像一场三方半的死斗,外加一批落后六个月训练量的国际选手,加一支规模比去年大 5 倍的发展联赛。客户希望供应商之间互相竞争,实验室想要的是市场份额,而不是某一个应用死掉。
最直观的证据来自实验室直接对垒的市场。在消费级 Chat 应用市场中,「最好的模型」从来没有简单地赢过。ChatGPT 在多年真实竞争中保持领先,它现在丢的份额是被 Gemini 拿走的,靠的不是模型更好,而是 Android 和 Search。Anthropic 目前被普遍认为模型最强,但在消费级聊天里几乎没有存在感,它的生意建在企业和编码上。
如果一个更好的模型,在最核心的应用里都拿不下对手的用户,它也别想用同样的方式整合进医院的病历系统或银行的责任体系。
如果工作没法从外部打分,那就必须有一个内部的人来定义什么叫好,而这个定义权,才是整盘棋的全部。
把够多这样的判断写下来,就成了基准。Harvey 为法律出了一个,Sierra 为语音 Agent 出了一个。但要注意因果关系:你能定义一个行业里什么是好,是因为这个行业已经在用你。而这些公司,是靠真实采用的硬仗挣来的这种资格。
决定真金白银的评估是私有、按公司而异的:这家律所,对这一类事务,会接受什么样的工作为「好」。而且这件事远未完成,法律本身的深度,让任何公开测试都相形见绌。OpenEvidence 也在干同样的事:确立什么是安全的临床答案。
这不是测量,这是判断。关于什么是真的、什么是好的判断。被写下来,就成了别人都被衡量的标准。哪怕基础模型再聪明,也写不出这个标准,因为这种权威只存在于行业内部。
资深律师写法律基准;安全临床答案的定义权属于医生;「已解决」的含义,由那家拥有客户的公司说了算。
「absorption frontier」还在不断向上推,因为我们一直在学会测量更多的事,而能被测量的都会被吃掉。不可训练的地面,在踩着它的人脚下一直在缩小。所以你找不到一块可以原地休息的高地,你必须不停往尚未被打分的方向迈步,并不断重新审视自己站在哪。
以上都是防守。但更难的是进攻,首先选择该建什么。
这是我一整年都在找的事,一年大概能找到三次。模型在这件事上帮不上忙,它会做你指给它的任何事,但不能告诉你什么值得指给它做。这件事没法基准化,所以也没法训练。
这也是为什么巨头吃不下一切:它们守得住已有的地,但下一片地总是来自一个比所有人都更早发现某种用法的人。也许意图,是比算力还要稀缺的输入。
回到文章开头提到的绝望论,其实只说对了一半。「薄壳层」确实在被吸收,今天看起来像公司的很多东西,其实只是一层薄壳。但它对「剩下什么」判断错了。
机制是清楚的,目的地不是。我愿意押注的是方向:
智能持续变便宜,价值持续滑向模型够不到的少数地方。不可训练之地,是带着历史的价值。
所以,挑一块这样的地走进去,做那种不光鲜的翻译工作,开始一行一行地写下「在这里,什么叫好」,因为总会有人来写。
今年被引用次数最多的那个基准分数,是一张即将一文不值的领土地图;同时也是一份通知书:通知谁,即将失去定义「什么叫好」的权利。
原文:https://x.com/saranormous/status/2064510215056400652
文章来自于"Founder Park",作者 "Founder Park"。
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!
项目地址:https://github.com/coze-dev/coze-studio
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md