Agent2025年终报告来了,UC伯克利、斯坦福和IBM联合发布

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
Agent2025年终报告来了,UC伯克利、斯坦福和IBM联合发布
5860点击    2025-12-08 08:52

2025就要过去了。UC Berkeley、Stanford和IBM联手做了一件大事。他们调研了306份在一线“造 Agent”的从业者问卷,并深度访谈了20个已经成功落地并产生价值的一线企业案例(涵盖金融、科技、医疗等领域)。试图回答一个最朴素的工程问题:一个能用的、赚钱的Agent,到底是用什么架构搭出来的?


Agent2025年终报告来了,UC伯克利、斯坦福和IBM联合发布


这篇名为 《Measuring Agents in Production》 的论文,是一份来自学术+工业界的“诚实报告”。它可能会打破您对Agent的很多幻想,但能给您指一条真正通往落地的路。


我们为什么需要Agent?


企业费尽周折开发Agent,到底图什么?


1.核心驱动力:简单粗暴的“生产力”


数据非常直观。在那些已经将Agent上线的团队中,72.7%的人表示,首要动机是“提高生产力”(Increasing Productivity)。紧随其后的是“减少人工工时”(63.6%)和“自动化常规劳动”(50.0%)。


Agent2025年终报告来了,UC伯克利、斯坦福和IBM联合发布


相比之下,那些听起来很高级的理由,比如“风险缓解”(12.1%)或“快速故障响应”(18.2%),并不是企业采用Agent的主要动力。


现实是:企业引入Agent,主要是为了帮人干脏活、累活,或者是解决人手不足的问题。


2.它们在哪里工作?(各行各业)


您可能认为Agent主要是在帮程序员写代码,但调查结果让人意外。虽然“技术”领域确实占了一席之地(24.6%),但占比最高的是“金融与银行业” (39.1%)。


Agent2025年终报告来了,UC伯克利、斯坦福和IBM联合发布


Agent的身影已经遍布了26个同的领域,包括:


  • 企业服务 (23.2%):比如HR助手、法务合规。
  • 数据分析 (13.0%)
  • 医疗服务 (8.7%):比如帮护士审核保险单。


3.用户是谁?(人机协同是主流)


这一点非常关键。92.5%的生产级Agent是直接服务于人类用户的,而不是服务于其他机器或软件系统。


Agent2025年终报告来了,UC伯克利、斯坦福和IBM联合发布


(a) 用户类型:92.5% 的 Agent 服务于人类用户(内部员工+外部客户),只有极少数服务于其他软件。(b) 延迟容忍度:绝大多数系统允许“分钟级” (41.5%) 的响应时间,只有7.5%要求亚秒级响应。


  • 内部员工 (52.2%):这是最大的用户群。企业更倾向于先在内部部署Agent,因为这样“容错率”更高,即使出错了,也有员工在旁边盯着。
  • 外部客户 (40.3%):直接面向C端用户的也有,但比例略低。


这也解释了为什么Agent能落地:它们并不是完全替代人,而是作为“工具”增强人的能力。人类用户本身就是最后一道防线。


成功的Agent是怎么做出来的?


这是论文最硬核、也最颠覆认知的部分。学术界推崇的“全自动、自我进化、复杂规划”在工业界几乎没人用


工业界的信条是:简单、可控、有效。


1. 模型选择:这笔经济账怎么算?


尽管开源社区非常活跃,但在真正的生产环境中,企业做出了非常现实的选择。


Agent2025年终报告来了,UC伯克利、斯坦福和IBM联合发布


左图:17个案例使用闭源模型(No Open Source),只有3个用开源。右图:14个案例没有进行后训练(Post-training/Fine-tuning),直接用现成模型。


  • 闭源模型主导:在20个深度案例中,17个团队使用的是闭源的“前沿模型”(Frontier Models),如GPT-4或Claude 3.5 Sonnet系列。
  • 为什么“贵”的模型反而是最经济的? 这里有一个常被忽视的经济学逻辑。许多团队明确表示,尽管前沿模型的API调用成本比开源模型高,但与它们所辅助的人类专家(如资深工程师、医疗专业人员)的时间成本相比,这点API费用几乎可以忽略不计。
  • 如果一个Agent能帮医生节省10分钟,哪怕API调用花了几美金,ROI(投资回报率)也是极高的。因此,企业在选型时,“能力上限”的权重远高于“推理成本”。
  • 因此,除非有极端的成本压力(如高频次大规模调用)或监管要求,否则大家都会默认选择能力最强的模型。


2. 拒绝“微调”,拥抱“提示词”


这可能违背了很多人的直觉。我们常以为要把Agent做好,必须得用私有数据去微调(Fine-tuning)模型。但事实是:


  • 70% 的生产级Agent完全没有进行微调。它们直接使用现成的模型(Off-the-shelf)。
  • 原因很简单:微调不仅贵,而且很难维护。一旦基座模型升级(比如从GPT-4到GPT-4o),微调过的模型可能就废了,必须重新训练。相比之下,现成模型的能力已经足够覆盖大部分需求。


那么,怎么让模型听话呢?靠Prompt Engineering(提示工程)


Agent2025年终报告来了,UC伯克利、斯坦福和IBM联合发布


  • 人工手写79%的团队主要靠人手写Prompt,或者人写完后再用AI润色一下。自动化优化工具的使用率极低(仅5% 的案例尝试过)。
  • 超长Prompt:工业界的Prompt非常复杂。虽然半数Prompt在500 token以内,但有12.1%的Prompt长度超过了10,000 token。这意味着开发者在Prompt里塞入了大量的规则、示例和上下文。


3.架构:朴素的“推理时扩展”与写死的流程


在学术论文里,Agent通常是“这就给你解决问题”,然后自己去思考步骤。但在公司里,Agent是被“管”得死死的。


Agent2025年终报告来了,UC伯克利、斯坦福和IBM联合发布


Agent核心组件配置:(a) 模型数量:大多数Agent只用1-2个模型。(b) Prompt 长度:存在一个“长尾”,有12%的Prompt超过了1万个token。(c) 自主步骤:46.7%的Agent只能自主执行1-4步。这张图是论文核心观点“Reliability Through Constrained Deployment”(通过受限部署实现可靠性)的最有力数据支撑,Agent不是无限思考的,而是被限制在很短的步骤内。


  • 朴素的推理时扩展 (Inference-time Scaling): 虽然大家都听过OpenAI o1这种通过复杂搜索(Search)来提升推理能力的模型,但工业界目前的做法要“朴素”得多。
  • 31%的生产级Agent已经使用了推理时扩展技术。
  • 但它们用的不是复杂的蒙特卡洛树搜索(MCTS),而是更简单的策略,比如“路由” (Routing):把简单的任务分给小模型,难的任务分给大模型;或者是多模型投票”:让几个模型一起跑,然后选最好的结果。
  • 步骤限制68%的Agent在需要人类介入之前,执行的步骤不超过10步


Agent2025年终报告来了,UC伯克利、斯坦福和IBM联合发布


  • 流程写死80%的案例使用了结构化的控制流。业界偏爱定义好的工作流 (Workflows),而不是让Agent自己去漫无目的地“思考和规划”。这也解释了为什么它们能上线,因为行为可预测。
  • 例子:一个处理保险索赔的Agent,它的流程是被钉死的:第一步查保额,第二步看医疗必要性,第三步查风险。它不能自己决定“跳过第一步”。


4.开发框架:LangChain真的好用吗?


这是一个非常有趣的“罗生门”现象。


Agent2025年终报告来了,UC伯克利、斯坦福和IBM联合发布


  • 问卷数据:在所有受访者中,60.7% 的人使用了第三方框架(如LangChain, LangGraph, CrewAI)。
  • 深度访谈(成功上线的系统):在20个真正跑通了业务流程的团队中,85%(17个团队)选择自研架构,完全不使用第三方框架


为什么高手都不用框架?原因: 框架太重、抽象层太厚,难以调试,比如Langchain的源代码就有一万多行。为了控制力和稳定性,工程师宁愿自己写简单的循环代码。


何况LLM框架本质上就是一个简单的有向图,这一观点出自Pocket Flow的作者Zachary Huang博士,感兴趣您可以看下:


Agent2025年终报告来了,UC伯克利、斯坦福和IBM联合发布


真的好用吗?如何评估Agent?


软件工程里我们有单元测试,但在Agent开发中,评估(Evaluation)是一个巨大的痛点。


Agent2025年终报告来了,UC伯克利、斯坦福和IBM联合发布


(a) 基线对比:61.3% 的团队没有进行基线对比。(b) 评估方法:74.2%依靠人工(Human-in-the-loop),51.6%使用 LLM-as-a-judge。(c) 共现矩阵:显示了不同评估方法的重叠,人工评估是连接所有方法的中心。


如果不知道 Agent 对不对,怎么敢上线?


1. 没有任何公开基准能用


  • 现实: 你的业务是独特的(比如“某公司内部代码迁移”),市面上的 MMLU或HumanEval测试集对此毫无意义。
  • 对策: 75%的团队没有任何正式的基准测试集 (Benchmarks),直接靠 A/B 测试或用户反馈。剩下的25%团队被迫花费数月时间,自己一条一条地构建“黄金数据集”。


2. “LLM-as-a-judge” 的真实用法


  • 混合模式: 虽然52%的团队使用大模型来评估大模型(LLM-as-a-judge),但在访谈中发现,没有一个团队敢只用AI评估
  • 黄金组合: 生产环境的标准动作是:AI 裁判对所有输出打分 + 人类专家对高置信度结果进行抽检 (Sampling)。AI是用来过滤显而易见的错误的,最终的质量把关必须是人。


最大的挑战:还是可靠性


当问到“开发Agent最难的是什么”时,“可靠性” (Reliability)毫无悬念地排在第一位。


1. 难以捉摸的“正确性”


传统的软件,Bug是可复现的。Agent的Bug是随机的。


  • 验证困难:对于代码生成的Agent,还可以跑一下代码看报不报错。但对于医疗、保险Agent,你很难快速知道它生成的建议是不是“有毒”。这种反馈往往滞后很久(比如病人出问题了、公司赔钱了)。


2. 延迟 (Latency) 其实没那么重要


这可能是另一个反直觉的发现。


Agent2025年终报告来了,UC伯克利、斯坦福和IBM联合发布


  • 只有14.8%的受访者认为“响应慢”是阻碍上线的关键问题。
  • 60%的系统允许分钟级甚至更长的响应时间。
  • 为什么?因为它们替代的是人类工作流。比如一个任务,人类做需要2小时,Agent跑5分钟虽然比传统软件慢,但比人快了20倍,用户完全可以接受。


3.安全性


我们常认为安全就是“把Agent关在沙盒里”。但这远远不够,因为Agent必须接触企业的核心数据。


Agent2025年终报告来了,UC伯克利、斯坦福和IBM联合发布


  • 数据暴露风险:调查显示,89.7%的生产级Agent需要访问内部数据库,69%需要处理保密或敏感数据。
  • 如果技术防不住,就靠法律:虽然有些团队尝试用“基于角色的访问控制”(RBAC)来限制Agent,但经常发现Agent会绕过这些限制。
  • 最终防线:因此,很多企业依赖法律和合同手段来兜底。比如,与模型提供商签署严格的协议,保证企业数据不被用于模型训练,从而在法务层面规避风险。


未来展望:不只是聊天


虽然目前的Agent大多是“聊天机器人”的形态,但论文中的数据预示了未来的进化方向。


  • 现状:文本为主。目前93%的Agent处理的是自然语言文本。
  • 未来:多模态爆发。企业对非文本模态的需求正在激增。例如,对视频处理的支持计划从目前的6.9% 激增至30.4%,对图像的支持计划从37.9%增加到47.8%
  • 未来的Agent将不再只是“读写”文字,它们将拥有“眼睛”和“耳朵”,能处理视频流、复杂的科学数据和时空数据,成为真正的全能助手。


总结与启示


读完这篇论文,我们可以勾勒出当前工业界AI Agent的真实画像:


它们不是科幻电影里全知全能的超级AI,而是被工程师们用无数规则、人工审核、特定流程以及法律合同“精心包裹”起来的实用工具。


研究者将这种模式总结为:“通过受限部署实现可靠性” (Reliability Through Constrained Deployment)


如果您正准备开发Agent,这篇论文给了您几条非常务实的建议:


AI Agent的时代确实已经到来,但它不是以“魔法”的形式,而是以“工程”的形式,一步一个脚印地走进我们的生产环境。


  1. 提示工程:先用最好的闭源模型API(GPT-4/Claude 3.5)国内的(Qwen3/DeepSeekV3.2)把流程跑通。如果Prompt搞不定,大概率微调也救不了。
  2. 写死流程:不要指望Agent自己规划出一条完美的路径。把业务逻辑拆解成确定的步骤(SOP),让Agent在每一步里发挥作用。
  3. 一定要让人介入:不要追求100%自动化。把Agent当作副驾驶,让人类专家做最后的“把关人”。
  4. 容忍它的慢:只要它比人快,且结果准确,分钟级的延迟完全不是问题。


文章来自于“AI修猫Prompt”,作者 “AI修猫Prompt”。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/

4
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

5
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0