怎么知道 Agent 真干完活了？

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

怎么知道 Agent 真干完活了？

8363点击 2026-05-26 14:57

SaaS-Bench, 一份新的研究

判断 Agent 靠谱与否，核心指标只有一个：是不是真干完活了

行业的做法大抵是：给 Agent 配台虚拟机，里面里装点程序或者仿真网页，给他的操作打分。在这种逻辑下，诞生了如评估电脑技能的OSWorld，评估客服工作流的 Tau2 等 bench

怎么知道 Agent 真干完活了？

在 GPT-5.5 发布的时候，也是引用了这些个榜单

每当模型发布的时候，这些曲线就会被拿出来展示，但这里却有一个心照不宣的漏洞：用模拟器评测，测的是【动作】，而不是【结果】

Benchmark 最主要的功能，是扫描现有模型的问题。而在 Computer Using 这个场景下，最大的挑战就是面试形选手太多：很多 Agent 非常善于表演，能完成如复制文件之类的简单动作，再给出非常漂亮的结案报告

但如果放在真实的办公场景，我们更在乎的是那些跨软件、动辄上百步的长任务，最终是不是完成了

怎么知道 Agent 真干完活了？

为了解决这个问题，我那些个在 UniPat 实验室整活的朋友，整了个新玩意儿：SaaS-Bench，来给 Agent 操作电脑这事儿，治治嘴硬

他们把一堆非常知名的、开源的 SaaS 工具，比如 Mattermost、OnlyOffice、ownCloud 打包进了一个 Docker，用真实的的办公环境，看看这些 Agent 怎么操作，以及操作完成后数据库有没有变化

作为测试结果，Opus 和 GPT 确实断档领先。但在这种真实的校验下，强如榜首也只拿了不到一半的分数

（另：这里 DeepSeek/GLM/MiniMax 不支持多模态，所以评分受影响）

怎么知道 Agent 真干完活了？

所谓「真实」，必须能检测

之前测 GUI 能力的时候，通常是搭建一个静态网页的环境，看 Agent 能不能正确的点击按钮。测 bench，大抵就像是考驾照：看你会不会侧方位停车、会不会压线等等

但实际上路是另一回事儿。咱正常办公是业务导向的，环境也是较为复杂的，比如有的时候 Agent 的点击虽然成功了，甚至网页也跳转了，但后台可能没收到响应...因为你可能点了假链接，比如...下面这种

怎么知道 Agent 真干完活了？

真实的电脑环境，总是有很诡异的问题

作为第一性原理，我们不妨换个思路：Agent 的嘴会骗人，但数据库不会，只需要检测数据库里的变化就行了，按着这个思路，就有了 SaaS-Bench

怎么知道 Agent 真干完活了？

Task Input → Agent → SaaS Apps（Docker）→ Browser-Use → Verify（State-Check）→ Score，走完这条链才算数

然后呢，UniPat 的朋友把 23 个开源 SaaS，都丢进了 Docker 来跑，测试项目覆盖软件研发、业务财务、医疗管理、团队协作、农业供应链、独立媒体六个领域。然后每个业务场景里都是用了真实的业务数据，大概就像下图所示：

怎么知道 Agent 真干完活了？

六个领域二十三个 App，环状图里大概率有你们公司在用的那几个

值得一提的事，在全部的 106 个任务里，93.4% 跨两个以上 App，三 App 协作的占一半（53 个）。纯文本任务 74 个，涉及多模态理解的 32 个。

这就很符合我们常见的工作习惯了，总是跨着软件来反复复制粘贴....哈哈哈哈，然后之前的各种 GUI bench 中，基本测试的都是 50 步以内的单 App 任务

就以医疗管理为例，医生先要在 OpenEMR 里写 SOAP 病历，再到 OpnForm 填上报字段，最后到 OnlyOffice 出正式文档，三个系统之间切来切去，就像下图所示

怎么知道 Agent 真干完活了？

OpenEMR 写 SOAP 病历 → OpnForm 填上报字段 → OnlyOffice 出正式文档

之前的 bench 里测的基本上是 50步以内的单 App 任务，而 SaaS-Bench 则基本都是 100 步以上的长程任务，但凡中间出现糊弄，最终数据库校验就过不去

至于这些任务是怎么来的？也是有 Human 在 Loop 的，是先由大模型结合职业角色和 task seed 生成初步的数据，再由专家人工筛选、实际执行、对齐验证器，以保证所有的任务具有代表性和可验证性

怎么知道 Agent 真干完活了？

大概就是这么四个阶段

还得说一下，在这个 Bench 里「操作对不对」这件事儿是通过「查数据库」来检测的，背后有一个验证器：每个任务都有一个 verify.py 文件，在跑任务的时候会自己调 SQL 查数据库、调 API 拉状态。每当任务有结果了，verifier 就会直接去查数据库里的字段对不对，避免出现下面这种情况

怎么知道 Agent 真干完活了？

hhhhh

SaaS-Bench 榜单

怎么知道 Agent 真干完活了？

【注意】DeepSeek/GLM/MiniMax 是单模态

说一下榜单的测试成绩吧，模型测试其实分为大类：文本任务和多模态任务，两者都通过 Browser-Use 在浏览器里操作 SaaS 界面，区别在于：多模态模型喂的是截图+无障碍树；不支持多模态的模型喂的就只有无障碍树，页面所有可交互元素被提取成结构化文本，模型读文字、输出「点第几号元素」

对于多模态的模型，没啥悬念的 Opus 4.7 拿了第一，checkpoint 分 43.9%，resolved 分 3.8%。GPT-5.5 High 几乎打平，checkpoint 43.8% 但 resolved 只有 1.9%

这里说一下，resolved 指的是完美完成了任务，checkpoint 则是给过程分；很显然，即便是强如 Opus，在真实操作办公软件这事儿上，其实跟弱智也差不多，很符合体感

在支持多模态的国产模型里，K2.6 是显著最强的，很符合认知：K2.5，是 Kimi 的一个分水岭/Kimi K2.6 开源：一个人，和他的 300 Agents

对于不支持多模态的 DeepSeek/GLM/MiniMax 这三款模型，只看 text-only 任务的话，最新发布的 DeepSeek V4 是强于 GLM 和 MiniMax 的，符合「越新越强」的刻板印象

然后...我发现了两个有趣的现象：其一、几乎所有多模态模型，在理论上更难的多模态领域里，分都会更高；其二、支持多模态模型，即便是在 text-only 的 Computer-Use 任务里，也更强

对于第二个点，考虑到在 text-only 下，单模态模型靠的是无障碍树，而多模态模型多了个截图，这意味着...即便是 Agent，图文并茂也是更利于模型/Agent 进行信息理解

任务越长，成功率越低

怎么知道 Agent 真干完活了？

越长的任务，就越容易出问题，这个还是很容易理解的。作为数据，可以查看上面的图：

单 App 的任务平均分 53%，而跨 4 个 App 任务的成功率就掉到 20% 左右
操作部署在 50 步以内的任务，平均成功率有 50%+，但到了 400 步就在 20% 左右
验证点 6 个以内能拿 65% 的分数，18 个以上则掉到 27%

总而言之：任务越复杂，分越低。当然，从数学上来看也合理，即便每个 checkpoint 通过率高达 95%，12 连抽也就只剩 54%

怎么知道 Agent 真干完活了？

97.3% 的任务超 100 步，最长 300+。真实办公流程就是这么长

步数越长，任何一步出错的概率越高，后面恢复的机会越少，把任务切成 early / mid / late 三段看，所有模型都是同一个走势：前段拿分，后段掉分

怎么知道 Agent 真干完活了？

所有模型一路向下，没有例外

同时的，单步骤错误率并非一成不变，当前序步骤发生错误了，可能后续好多步的成功率都会受到影响，并且难以自检，比如下面这个：

怎么知道 Agent 真干完活了？

第七步小石头一磕，后面九分跟着倒

在这个任务里，是要创建一个公司客户 Arcturus Digital，Agent 填了联系人姓名加公司名，却触发了个人客户的逻辑路径，实际创建出一个叫 Elena Vasquez 的人。作为影响，后续的开发票、记付款、对账等流程，都因为全部挂在错误实体下而产生错误

可见，前面只是一个小的错误，在后续环境下都能产生不小的损失

数据库，专治嘴硬

大模型总是带着点「先忽悠，大不了道歉」的恶习，而通过数据库去校验实乃创举。之前如果让 Agent 去自检，他总是说「放心吧，餐厅 100% 定好了」但如果拿数据库去校验，就很容易发现大模型在此处出现的问题：很多 Agent 自评是纯幻觉的

如果你只看 Agent 给你的汇报结果，很多时候你会被骗的心服口服，这时候你需要真的让赛博勇哥过来，让你的 Agent 360 度转一圈，看看数据

比如 Opus 4.6 在一个任务里发现日期填错了，它会说「我现在就去修改，一定搞好」，并汇报「账单日期 2026-03-20，已修复」。此刻如果通过 API 看一下，可能后台里还是：账单日期 03-19

怎么知道 Agent 真干完活了？

意图说成了，状态说没成，两边各觉得自己没错

Agent 在意图层面认为成功了，反思机制是「我会改」，但不一定会改成功，这点相信大家一定深有体会，而 verifier 这玩意儿也正好拿来看看 Agent 到底能怎么糊弄

从榜单，到训练数据

对于 Computer-Use Agent 整块，在过去两年都在面临一个事情：CUA 训练数据严重不足，WebSTAR、GUI-360、Video2GUI 这些近期论文，开篇都点同一个判断：scarcity of high-quality trajectory data

CUA 训练数据大头来自人工标注，贵且不可扩展，而另一部份则来自简化环境下的合成数据，便宜但不真

SaaS-Bench 更有价值的地方在于它的环境，能够稳定的产出长程、跨 App、带真实后段校验的运行轨迹

对于想要攻克办公环境的 Agent 来说，这套环境是非常有价值的

总结

如果我们真的希望 Agent 能够进入千行百业，那么就应该更好的评估 Agent 的行为，确保无论它在做任何事情的时候，不是在糊弄

对于 Agent 的评估来说，我们不能只看他的结案报告写的多漂亮，排版多精美，更需要的是看看 Agent 是不是真的干完活了

SaaS-Bench 的意义，恰就在于给出了一套「测谎」的方法，以及一套「生成数据」的环境，或者说...给未来 Agent 打绩效的凭证...

趋势已经是这样了，拥抱吧

Blog：unipat.ai/blog/SaaS-Bench

GitHub：github.com/UniPat-AI/SaaS-Bench

论文：arxiv.org/abs/2605.15777

文章来自于"赛博禅心"，作者 "金色传说大聪明"。

关键词: AI新闻 , Agent , SaaS-Bench , AI办公基准

添加客服微信openai178，进AITNT官方交流群

AI转型,免费服务,就找AITNT

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

1

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

2

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md