文章摘要
一线工程师构建12个生产级AI Agent系统后指出,AI Agent热潮的数学限制如错误累积和高成本导致全自主系统不可行;实际可行方案需结合边界清晰任务、人工决策和传统工程支撑;预测全自动初创公司将失败,领域专用工具将主导市场。
• 错误累积:多步流程可靠率指数级下降,20步成功率仅36%。
• 成本爆炸:长上下文对话导致token开销二次增长,经济不可持续。
• 工具设计难题:AI工具需精心设计反馈接口才能有效运行。
• 现实集成挑战:Agent难以对接复杂企业遗留系统和法规限制。
• 可行Agent模式:采用有边界任务并嵌入人类决策节点以确保稳定。
• 市场预测:全自主Agent初创公司将受挫,受限领域工具团队胜出。
很多人说,“2025 年是 AI agent 元年”。各种新闻文章标题都这么写:
而我却刚刚花了一年时间搞清楚哪些 Agent 在生产环境里真正能用,也正因此,我才不看好这股风潮。
过去一年,我做了十几个上线的 Agent 系统,覆盖整个软件开发流程,比如:
这些系统确实能用,也确实创造了实际价值,每天都能帮人省下好几个小时的手动操作。也正因如此,我才认为,外界把 2025 年称作 “AI Agent 元年” 的说法,忽略了很多关键现实。
在构建了 12 套以上的生产级系统之后,我得出了以下几点结论:
所有做 AI Agent 的公司都在回避一个难以接受的事实:在生产级别的多步骤任务中,错误的累积让“全自动智能体”在数学上根本行不通。
AI Agent流程中的错误累积
咱们算算账。如果一个 Agent 流程中每一步的可靠率是 95%(这对现在的大模型来说已经很乐观了),那么整体成功率就是:
而生产环境要求的可靠率通常要达到 99.9% 以上。即使你奇迹般地让每步的成功率达到 99%(目前没人做到),20 步的整体成功率也只有 82%。这不是提示词设计的问题,也不是模型能力的问题,而是数学上的现实。
我做的 DevOps Agent 能用,原因正在于它根本不是一个 20 步的全自动流程。它被拆分成 3~5 个独立的、可以单独验证的操作,有明确的回滚点和人工确认环节。Agent 负责生成复杂的基础设施代码,但整个系统架构都是基于可靠性这个数学限制来设计的。
我做过的每一个成功的 Sgent 系统都有相同的规律:有边界清晰的上下文、可验证的操作步骤,以及关键节点上的人工决策点。一旦你试图让智能体自主串联起超过几个步骤的复杂操作,数学就会让你吃瘪。
还有一个数学现实是很多 AI agent 支持者故意忽略的:长上下文窗口会导致 token 成本呈二次方增长,这让基于对话的 Agent 在经济上根本不划算。
具体来说,做一个“会聊天”的 Agent 会遇到这样的问题:
我自己在做一个会话型数据库 Agent 的原型时就深有体会。
刚开始几次的交互成本还算低,但到第 50 次请求时,每条回复的花费已经达到几美元,远超它能带来的价值。在绝大多数场景下,这种经济模型根本行不通。
我做的函数生成 Agent 之所以成功,是因为它完全无状态:输入描述-输出函数-过程结束。没有需要维护的上下文,也不用追踪对话,这就避免了成本的爆炸。它不是“和代码聊天”的体验,而是专注解决具体问题的工具。
实际上,生产环境中最成功的 Agent 往往根本不依赖对话。他们是聪明而有边界的工具,专注于做好一件事,然后干净利落地退出,不拖泥带水。
你就算搞定了上面两个数学问题,还得面对一个现实:AI 想用好工具,必须有合适的接口和反馈系统。但现在很多团队都严重低估了这个挑战。
现在的工具调用其实已经相当精准了,真正的难点在于工具设计。每个工具都必须经过精心打磨,既能给出合适的反馈,又不能让上下文窗口被信息淹没。你需要考虑:
我做的数据库 Agent 能用,不是因为工具调用不出错,而是因为我花了几周时间设计了能和 AI 有效沟通的工具接口。每个工具都会返回结构化的反馈,Agent 能真正用来做决策,而不是单纯拿到一堆原始的 API 响应。
那些号称“接上 API,Agent 就能搞定一切”的公司根本没做过这方面的工程工作。他们把工具当成人机交互界面设计,而不是针对 AI 做设计。结果就是,虽然 Agent 在表面上能成功调用 API,却无法真正完成复杂的流程,因为它根本没弄懂发生了什么。
每个生产环境中的 Agent 系统背后都有个不为人知的真相:AI 可能只做了 30% 的工作,其余 70% 是工具工程——设计反馈接口、高效管理上下文、处理部分失败,以及构建 AI 能理解和利用的恢复机制。
假设你已经解决了可靠性和经济性问题,接下来还得面对一个更大的挑战——和现实世界系统的集成,而现实往往很复杂糟糕。
企业系统并不是一套干净利落的 API,等着 AI agent 去协调。它们大多是遗留系统,有各种怪癖、存在各种故障模式、随时可能变动的认证流程、按时间变化的访问频率限制,还有一些合规要求,根本套不进简单的提示模板里。
我的数据库 Agent 不只是“自动执行查询”。它还得处理连接池管理、事务回滚、只读副本、查询超时,并且记录所有操作以备审计。AI 负责生成查询语句,其他一切都靠传统系统编程。
那些吹嘘“全自动 Agent 能无缝集成你整个技术栈”的公司,要么太乐观,要么根本没真正在大规模生产环境试过。在现实中,集成现实场景往往是 AI Agent 的坟墓。
做过十几个覆盖整个软件开发生命周期的 Agent 系统后,我发现,成功的项目都有以下这些共同特点:
总结成一句话就是:
AI 负责处理复杂问题,人工负责掌控关键决策,传统软件工程保障系统稳定可靠。
以下是我对 2025 年哪些人将陷入困境的具体预测与判断:
我并不是不看好 AI,而是不看好当前的 Agent 架构的做法。但我相信,未来会远比现在的炒作更有价值。
如果你打算做 AI agent,先从这些原则开始:
Agent 革命迟早会来,只是它绝不会像 2025 年宣传得那样光鲜炫目,正因如此,它才更可能成功。
文章来自于微信公众号“CSDN”,作者是“Utkarsh Kanwat”。
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!
项目地址:https://github.com/coze-dev/coze-studio
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0