从卖token到卖结果，这些公司开始让AI背KPI了

8835点击 2026-05-19 15:32

自从黄仁勋在 GTC 上大手一挥，鼓励企业把 token 消耗量算进工程师的 KPI，魔幻的事情就一天比一天多了。

先是 Meta 内部搞起「烧 token 竞赛」，员工为冲 KPI，写死循环 bot、用低效提示词刷量；接着亚马逊员工为了证明自己「高频使用 Agent」，明明不需要自动化的活儿，硬给做成自动。表面看，这是大厂员工在「卷 AI 使用率」，但背后暴露的问题其实更严重：当企业无法衡量 AI 的真实价值时，就只能退而求其次，用「调用量」代替「产出」。

而这种失真，正在变成整个行业的共同困境。

麦肯锡数据显示，88% 的企业已经在至少一个职能中常态化使用 AI，但真正能被定义为「AI 高绩效企业」，即 EBIT 因 AI 提升超过 5% 的，不到 6%。大量预算、算力和工程师时间被投入进去，最后换来的，却往往只是一份「看起来很忙」的账单。企业知道 AI 很重要，也知道竞争对手在用，但问题是：钱到底花得值不值？没人说得清。

这其实也是过去两年 AI 落地最尴尬的地方。

因为大多数 AI 公司卖的，本质上还是「工具」。工具是否真正创造价值，风险天然由采购方承担。更何况，这一次的工具不仅更贵、更复杂，还高度依赖企业自身的数据、流程和组织配合。于是，很多企业最后只能盯着 token、调用次数、Agent 使用频率这些「过程指标」，试图从里面推测 AI 有没有产生结果。

但问题在于，企业真正想买的，从来不是 token。

CEO 不会因为员工多调用了几次模型而高兴，董事会也不会因为 Agent 使用率提升就认可 ROI。企业真正想要的，其实一直都很简单：结果，而且是能被验证、能被归因、最好还能直接写进财报里的结果。

只是过去，很少有 AI 公司敢为这个结果负责。

而现在，一批公司开始尝试改写这件事：他们不再按「卖工具」收费，而是开始直接对结果收费，让 AI 真正背上 KPI。其中，硅谷的 Sierra 与国内的零犀科技，恰好代表了这一模式在海内外的先行探索。

当 AI 公司开始为结果负责

今年 3 月份，红杉的一篇文章带火了一个名为「Raas（Result-as-a-Service）」的概念。

从卖token到卖结果，这些公司开始让AI背KPI了

文章开篇就抛出断言：「下一个万亿美元级公司，将是一家伪装成服务公司的软件公司。」

怎么理解？先看文中定义的两种 AI 商业模式：Copilot 和 Autopilot。前者卖的是工具 —— 专业人士用 AI 提效，但雇人用 AI 还得额外花钱。后者卖的是「工作成果」本身：AI 直接交付结果，客户只为可衡量的业务结果付费，而不是软件订阅。

红杉的判断是：后者价值高得多。因为数据摆在那里 —— 企业每花 1 美元在软件工具上，就要在相关服务和人力上花掉约 6 美元。AI 的进步让「卖结果」成为可能，Autopilot 公司可以直击这个远超工具市场的劳动预算。

这篇文章在圈内引发轰动，原因很简单：一个顶级投资机构，亲自把「卖结果」的前景和分量点明了，等于给投资人指了下一波重仓方向。

不过，也有人质疑这是投资机构炒概念，但紧随其后的一个融资消息让市场开始认真审视这个概念的分量。

这个消息来自一家名为 Sierra 的公司。该公司由 OpenAI 董事会主席 Bret Taylor 与前谷歌高管 Clay Bavor 联合创立，旨在通过 AI 为企业提供定制化的客户体验解决方案（比如帮用户改订单、退款、调库存），其核心理念就是让客户「pay for a job well done」。今年 5 月，该公司宣布完成 9.5 亿美元融资，公司估值超过 150 亿美元。

从卖token到卖结果，这些公司开始让AI背KPI了

要知道，这一估值是他们 ARR（1.5 亿美元）的 100 多倍。对于一个刚刚被摆上牌桌的新赛道来说，这几乎已经不是普通意义上的高估值，而更像是一种明确的下注。

而真正说服投资人的，是 Sierra 本身的商业化进展。目前，他们已经覆盖超过 40% 的财富 50 强企业。在客户体验与自动化服务这种高度核心、又极度看重稳定性和 ROI 的场景里，大企业不会因为「概念性感」就大规模采购。某种意义上，这些客户本身就是最严格的投票人。

而 Sierra 拿下这些客户，本身就在说明一件事：RaaS 已经不再停留在 PPT 和融资故事里，而是开始完成真正的大规模商业验证。

在国内，类似的事情也在发生。而且国内公司还额外证明了一件事：RaaS 模式能实现规模化盈利和正现金流。

让市场注意到这一点的，是一家名为零犀科技的公司。

从卖token到卖结果，这些公司开始让AI背KPI了

坦白说，国内宣称走 RaaS 路线的公司不止他们一家，但现阶段，真正能拿出盈利数据的却凤毛麟角，而零犀恰恰是那个少数派。

他们做的事，其实可以理解成「让 AI Agent 直接去卖东西」。在保险、汽车这些行业里，零犀的 AI 会直接面向 C 端用户沟通，从最开始判断用户有没有兴趣，到中间的跟进、推荐，再到最后成交，整套销售流程都由 AI 自己完成。这个过程最大的难点在于，你最终要拿结果说话 —— 用户是不是真的下单、保单是不是真的成交、钱是不是真的进来是金标准。

但从 2019 年开始，零犀就选择为这件事的结果负责，并一路走到了今天：从早期负毛利，到 2024 年实现公司级净利转正，再到 2025 年跑出规模化盈利与正现金流。数据显示，某头部保险机构接入其智能体后，新增保费超过 20 亿元。而如果用传统人机结合模式完成同样的增量，往往需要一支 800 到 1000 人的销售团队。

无论是硅谷的 Sierra，还是国内的零犀，它们都在做同一件需要胆量的事：把传统上由客户承担的不确定性，主动揽到自己身上。

在 AI 仍被多数人当作「效率工具」的语境下，这种选择本质上需要足够的技术底气。因为只有当你真的相信，自己的系统能够稳定完成任务、持续优化结果、并长期控制波动时，你才敢签下这样的合同。否则，一次结果不达标，吞掉的就是真金白银的亏损。

也正因如此，RaaS 真正有意思的地方，从来不只是商业模式创新，而是它天然会倒逼公司走向另一个维度的技术探索。而这，恰恰也是 Sierra 和零犀接下来最值得被拆解的地方。

为结果负责，不能单靠大模型基座

Sierra 和零犀，表面上看业务差别很大。Sierra 把「Better customer experiences. Built on Sierra.」挂在官网最显眼的位置，核心产品 Agent OS 帮企业批量造 AI 客服，谈的是体验。零犀则一头扎进保险、汽车等销售场景，谈的是成交。

但从底层来看，两家公司面对的是同一个根本性难题：如何让 AI 在真实业务场景里稳定地把事情做完，并且为结果负责。正是这个共同的出发点，倒逼出了高度相似的技术路径。

首先，两家都不是在单纯地卖模型能力，而是在卖任务完成 ——Agent 的设计目标从一开始就指向业务结果，而不是简单的生成质量。为此，它们都在大模型之上额外搭了一套执行、记忆与评估系统，并对模型本身做了二次干预，让它在特定场景下更可靠、更少犯错、更清楚什么算好结果。更关键的是，两套系统都不是静止的 —— 它们在真实业务里持续跑、持续学，越用越强。

这些共性让它们看起来走在同一条大路上。但接下来的岔口，客户体验与销售的本质差异，把两家推向了完全不同的技术纵深。

当回答对≠能成交

由于瞄准客户体验，Sierra 的核心命题是「把事情做对」，目标是答对问题、少犯错、不出合规风险。围绕这个目标，Sierra 搭建的是一套精密的模型编排体系：15 款以上的异构模型按任务特性分工协作，再由监督者模型实时审查每一次输出。这是一种偏向「组织架构管理」的技术思路 —— 把正确性管住，系统就能稳定运转。

从卖token到卖结果，这些公司开始让AI背KPI了

但对于瞄准销售的零犀来说，核心命题截然不同 —— 它不是「对不对」的问题，因为话术对不等于能成交。举个例子，一位女士在咨询保险过程中说「我要和老公商量一下」，通用大模型可能顺势接一句「好的，您回去商量」。看起来，这个回复没有什么毛病。但在实际的销售场景中，一个金牌销售不会让话题就这么终结，而是读懂这句话背后的真实顾虑（比如怕买错或没搞懂保障范围），并做进一步努力。

这种情况下，模型必须学会向高转化方向倾斜。因此，零犀真正需要的是一套奖惩机制 —— 做对了给正向激励，没达到预期就施加惩罚，通过后训练持续把模型的权重推向想要的方向。

但这个后训练过程，远比训练模型去做编程等任务坎坷，因为销售场景的难点是全方位的 —— 数据稀缺、信号稀疏、归因复杂，而且根本无法在虚拟环境中验证。

我们知道，销售的成交率本来就低，实际场景里可能只有百分之几，大部分用户都不会成交。这意味着你拿到的正向反馈天然稀少，没办法像训练代码模型那样 —— 写一段代码，跑一下看有没有报错，就能立刻得到明确的对错反馈，进而产生大量训练数据。销售结果是由真实的人来决定的，你没办法造出一个虚拟用户，设定「只要这样说他就一定会买」，这个环境根本不存在。

归因则是更复杂的问题。一单成交了，是因为 AI 话术好，还是客户本来就有购买意向？一单丢了，是 AI 策略失误，还是客户客观原因？这和「吸烟是否导致肺癌」是同一类问题 —— 不是个体能直接验证的，必须靠大量真实样本的统计因果分析才能建立可信的归因逻辑。

但统计也不是万能的，因为很多时候基于统计的大模型无法区分真正的因果和虚假的相关，这也是所谓「幻觉」的根源。当模型看到「沟通时间长」与「成交」之间存在统计相关，它可能就学会拼命延长对话，却不知道如果用户一直在投诉，聊再久也不会买单。单纯依赖统计因果，模型会轻易被混淆变量带偏，这正是销售场景里最容易踩的坑。这也是为什么通用大模型无论能力多强，在销售转化这件事上都难以直接搞定。

零犀的突破口：让模型学会「因果」

正因为销售场景存在以上这些问题，零犀最后走出了一条和通用大模型很不一样的后训练路径。这条路径的关键，不是单纯让模型「更会说」，而是让模型在后训练阶段学会：用户买，为什么会买，什么策略真正有效、为什么有效，以及什么样的策略应该被持续虽化。

为了达到这个目标，首先，它解决的是「归因」这件事。

前面提到，销售最大的难点之一，是模型很容易被虚假的统计相关带偏。这里的问题不在于模型不会统计，而在于它不知道真正起作用的「因」是什么。

所以，零犀沉淀的并不只是普通对话数据，而是一套尽可能因果完备的全链路数据：用户当时是什么状态、浏览了什么页面、AI 为什么采取这个策略、用户后续又给出了什么反馈…… 这些信息都会被完整记录下来，并沉淀为领域因果知识图谱，作为事实底盘约束模型输出。因为只有「因」足够完整，模型才不会只学到表面的相关性。

但数据只是基础，更难的是把销售经验真正变成模型能力。

很多销冠并不一定能准确说清自己为什么厉害，但他们往往知道：什么情况下应该推进，什么情况下应该转移话题，什么情况下用户真正的顾虑其实没有说出口。零犀做的，是把这些原本存在于人脑中的经验，拆解成一套「用户状态识别 — 策略选择 — 结果反馈」的因果逻辑，再通过后训练沉淀进模型。这套「逻辑因果」方法与「统计因果」共同作用，使得模型的输出更加可靠，能让模型知道什么该奖、什么该罚、什么样的策略值得被强化学习持续放大。

此外，起作用的还有反事实推理。系统不仅记录「做了什么」，还会评估「如果没做会怎样」—— 对每一次未成交，它会复盘：比如在给新生儿父母介绍保险时，如果当时没讲性价比，而是继续聊孩子保障缺口，转化率预计能到多少？这种从「没发生的事」里提取知识的能力，让模型在真实数据稀疏时依然能持续学习。

当这些能力建立起来之后，系统的自主进化才真正开始运转。

由于零犀本身就是按结果收费，它天然能够拿到最直接的反馈闭环。哪些策略带来了更高转化，哪些用户会在什么节点流失，哪些干预方式实际上适得其反，系统都能在真实业务环境中持续完成评估、归因和策略调优。

与此同时，新的业务规则、成功案例和失败教训，也会被不断加工成结构化的因果知识片段，重新沉淀回模型与知识图谱之中。随着服务规模扩大，系统对用户理解、策略选择和交付能力的积累也会越来越深，最终形成一种持续自我优化、自我进化的后训练体系。

因此，零犀的壁垒，本质上并不是某一个单点技术，而是一套不断自我强化的飞轮：因果完备的数据、业务 know-how 的 AI 化，以及真实业务环境中的持续迭代，三者彼此咬合，最终形成了一个会越跑越快的后训练系统。

从卖token到卖结果，这些公司开始让AI背KPI了

而支撑这个飞轮持续运转的，是一支优秀的后训练团队。除了来自头部高校和大厂的算法工程师之外，零犀还长期引入深耕行业十年以上的销售专家。他们参与的并不只是「标注数据」，还在帮助系统回答一个更难的问题：顶级销售真正有效的能力，到底该如何被 AI 理解、拆解和复制。

RaaS：AI 的价值回归

当我们把视线从具体的技术细节拉回来，会发现 Sierra 和零犀的探索，其实正在回答 AI 行业一个更根本的问题：AI 到底应该怎么创造价值，又该如何被定价？

这两年，一个趋势正在变得越来越明显：单点工具的壁垒正在被快速瓦解。Claude Code 等 Agent 产品的出现，让很多专门工具，变成了「用时生成、用完即弃」的东西。工具本身的价值，正在以肉眼可见的速度被稀释。但与此同时，另一件事情的价值却在水涨船高：把工作真正做完、做好的服务。

原因很简单。工具只是流程里的一把锤子，你买了锤子，还得自己去钉钉子，钉歪了、钉错了，责任都在你。但服务交付的是「把钉子钉好」这件事本身 —— 结果确定，风险转移。

这其实也是 AI 从诞生第一天开始，人们真正期待它做到的事情 —— 成为一个能独立背 KPI 的数字劳动力。谁能真正做到这一点，谁能拿到的市场，就会比传统软件大出一个数量级。

而 RaaS 这个赛道更值得关注的地方在于，它的护城河并不会随着基础模型升级而被削弱，反而可能越来越深。

因为 SaaS 卖的是工具，客户今天能买，明天也能换；但 RaaS 一旦开始端到端地交付结果，它就会逐渐嵌入客户真正的业务流程。更关键的是，每一次真实交付，都会沉淀新的结果数据、行业 know-how、策略经验和合规逻辑。这些东西不会因为底层模型升级就被清零，相反，模型越强，它们的价值反而越会被放大。

还有一个容易被忽视的变化是：当客户开始习惯「按结果付费」之后，他们会反过来用这套标准去要求所有后来的 AI 服务商。

这也是为什么，零犀提到说，他们的一些大客户，已经开始不再关心「你用了哪个模型」「参数量是多少」，而是直接追问：「你到底能不能把转化率做上去？」一旦行业开始用结果而不是功能评估 AI，整个竞争逻辑都会被彻底改写。

所以，先发者真正占据的，并不只是时间窗口，而是定义规则的能力。

回到文章开头，那些大厂内部为了冲 AI 使用率而疯狂「烧 token」的荒诞场景，本质上其实暴露的是同一个问题：AI 的价值，始终没有被真正兑现。而 RaaS 真正重要的地方，恰恰在于它把这件事重新拉回了正轨。

从本质上来讲，这是一种价值回归：让 AI 真正对结果负责，让收益和风险对齐，也让「生产力」这个词第一次真正回到商业世界最朴素的衡量标准里 —— 到底有没有把事情做成。

摩根士丹利 2026 年初发布的报告将 AI 定义为第六次技术革命。前五次技术革命的历史已经反复验证：短期卖「铲子」的基础设施商最先获利，长期最大价值却沉淀在应用层和采用者手中。由于这种生产率红利的滞后性，AI 对生产率的实质性带动可能要到 2030 年之后才会充分显现。当泡沫退去、噪音消散，真正穿越周期的，永远是那些敢于为结果负责、把技术转化为生产率的公司。

这也正是 RaaS 最值得被长期看好的底层逻辑。零犀和 Sierra 的探索，不是在做概念，而是在重演一个被历史反复验证的剧本：谁能把「铲子」用好，把工作真正做完，谁就能定义下一个十年。

文章来自于"机器之心"，作者 "张倩"。

关键词: AI新闻 , AI职场 , AI企业转型 , 零犀恰恰

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址：https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装：https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体，能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址：https://github.com/hitsz-ids/airda

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0