作为大家的测评博主,我最近发现一个巨有意思的现象:
现在市面上大部分评估 Agent 的基准测试,倾向于考核“单项技能”,而非“综合任务”。比如,你让 AI 点份外卖,它能完成;但如果要求它策划一场涵盖预算、选址、菜单、宾客邀请与流程安排的晚宴,它很可能就原地就 G 了。
这种“偏科”现象并非我的主观感受。
比如,清华大学之前提出的 AgentBench ,将智能体的能力拆解成八大维度,比如理解人类意图、编码能力、逻辑推理、自主探索等等。这些能力单拎出来都非常重要,但它们本质上仍是一系列独立的“单项技能”,离能策划一场晚宴的项目管理大师还差得很远。
一旦我们把 Agent 从这些精心设计的“考场”,拉回到真实的“打工人”办公室,就会发现完全是另一番景象。在真实的打工人的办公环境中,我们面对的任务往往是:
而目前市面上这些的测试标准,完全无法映射这种真实世界的复杂性。因此,我们看到的众多 Agent,本质上还是“技术玩具”,而非“生产力工具”。
它们在短平快的任务上表现尚可,一旦投入到仿真真实打工人的工作流中,几乎立刻歇菜。
为了弥补现有评测体系的不足,微软与爱丁堡大学的研究人员携手推出了专门用于评估大型语言模型 Agent 在“长周期、复杂办公应用工作流”中真实表现的综合性基准- OdysseyBench。
论文标题:Odysseybench: Evaluating Llm Agents On Long-Horizon Complex Office Application Workflows
论文链接:https://arxiv.org/pdf/2508.09124
OdysseyBench 的理念是:将评测的重心从“原子任务”转向了“真实工作流”。
看下图所示对比,左侧的传统“原子任务”就像是一个孤立指令:“把这句话加到文档末尾”。
而右侧 OdysseyBench 所定义的“长周期任务”则高度模拟了现实:“请从一张合并了通知信息的图片中提取文本,按‘聚会’和‘会议’分类,分别整理成两个 PDF,并存入不同的文件夹。整个过程中,不仅穿插了无关的‘闲聊’作为干扰,任务指令本身也是在几天内分批给出的。”
这,才是真·打工人日常啊!
OdysseyBench 使用了 Word、Excel、PDF、电子邮件和日历 五大“打工人”搬砖应用,创作了两类任务:
每个任务都要求 Agent 像个侦探,从持续数天的、夹杂着闲聊的对话中拼凑出线索,进行多步推理,并在多个应用间协调操作。如果不理解长周期历史,任务根本无法完成!
让我们来看一个例子,直观感受一下 OdysseyBench 的“险恶”之处:
任务的最终目标很简单:
“将提取的文本内容拆分,一部分存为 party.pdf,另一部分存为 meeting.pdf。”
在一个原子任务基准中,Agent 收到的就是这句直接的指令,而在 OdysseyBench 中,Agent 收到的却是这样一段跨越多天的对话历史:
Day 1, 09:00, 用户 Bob: “你能把这张合并通知图片里的文本提取出来吗?”
Day 1, 09:01, 助手: “当然!”
Day 3, 11:05, 用户 Bob: “对了,你能把之前提取的文本分成两部分吗?一部分关于派对,一部分关于会议。” Day 3, 11:06, 助手: “好的,记下了。”
Day 5, 15:00, 用户 Bob: “现在,用关于派对的那部分文本创建一个名为 party.pdf 的 PDF 文件。”
Day 5, 15:01, 助手: “没问题。”
(对话中可能还夹杂着关于天气、午餐的闲聊)
Agent 需要完成的任务指令是隐藏在这段漫长、碎片化的对话中的,它必须回溯、整合、并理解上下文,才能将“提取文本”、“拆分文本”、“创建 PDF”这几个分散在不同时间的子任务串联起来,形成一个完整的工作流。
好了,到这里,这对话已经很贴近我与我老板的对话 hh 了,氮素这种复杂还带“闲聊”的任务,人工标注得标到猴年马月去?
OdysseyBench 构建一个能自动化生成复杂基准的多 Agent 框架——HomerAgents,当作考卷,分两条“生产线”:
1.HomerAgents+ : 把简单的任务“魔改”成复杂的长周期对话。
2.HomerAgents-Neo : 全新的任务。
通过这种多 Agent 协作,OdysseyBench 实现了大规模、多样化、上下文真实的基准生成,解决了人工出题的瓶颈
好了,考卷已经出好了,那尖子生们的表现如何呢?
研究团队采用了目前最顶尖 LLM Agent(包括 GPT-4o、DeepSeek 等多个先进模型)进行了测试:
首先,Agent 需要会的应用越多,表现就越差。如下表所示,当任务从单个应用增加到三个应用时,即便是最强的模型,成功率也近乎腰斩。
接着,关于上下文的发现是:并非越长、越多就越好!
过去,我们习惯将所有对话历史一股脑地喂给模型,虽然其任务成功率最高,但钱包会哭哭。随着多位科学家对上下文工程重要性的不断验证,为了探寻高效且经济的记忆机制,研究团队设计了一组关键实验,测试 Agent 如何调用过往对话记忆的效率最高:
而实验结果,简直是意料之外,毕竟,不是所有的数据都值得记住。结果就是:“摘要区块”策略大获全胜:
在难度更高的 OdysseyBench-Neo 数据集上,该策略的任务成功率高达 56.29%,这不仅是对粗糙的“信息碎片”策略的压倒性胜利,甚至超越了看似提供了全部信息的“信息瀑布”基线(51.99%),而且,其 Token 消耗量却不到后者的 20%,真正实现了性能与效率的双赢。
论文还“贴心”地分析了 Agent 目前打工中经常失败的几种常见情况:
1.文件找不到:对话里提到了文件名,结果 Agent 没能提取出来去读取。
2.操作忘了做:用户让“分析数据再总结”,结果 Agent 没分析,直接开始瞎写总结。
3.工具用错了:想生成 PDF,但错误地使用了直接创建的工具,而不是先用 Word 编辑再转换。
4.计划混乱:需要先读 PDF 再写 Word,结果它直接打开 Word,然后问:“我要写啥来着?”
(看完这些“错误”,我只想问,到底谁说 Agent 现在还不能打工,这些错误我也天天犯啊!)
今天之所以给大家介绍 OdysseyBench,是因为其评测理念与与我个人对 AI Agent 未来发展的期望高度契合:
我们所真正期待的 Agent,并非当下流行、能执行越来越“难”的特定指令的“智能工具人”,而应是一个能够深刻理解用户意图、自主管理复杂项目、跨应用域为你创造价值的“智能伙伴”。
只有当 Agent 真正具备这样的认知深度与广度,我们所描绘的、真正意义上的 AI 时代才能降临 ~
文章来自于微信公众号“夕小瑶科技说”,作者是“小鹿”。
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!
项目地址:https://github.com/coze-dev/coze-studio
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。
在线使用:https://ffa.chat/