一句话概括,花大价钱请来的AI智能体天天搁那儿“过度思考”,这篇论文教你如何让它“该省省该花花”,别再当冤大头了,当你给智能体卸掉复杂记忆/冗余规划这些"奢侈品"后,发现它跑得比香港记者还快还便宜。(原论文题目见文末,点击阅读原文可直接跳转至原文链接, Published on arXiv on 6 Aug 2025, by OPPO AI Agent Team)
亲爱的读者们,沈公子的公众号agent🤖和base model升级到v3.0,今后公众号文章行文会更流畅,处理公式和符号也完全达到人类专家水准,会大幅减少出现错乱和显示异常的情况,提升阅读体验。enjoying :)
这篇论文的出发点非常明确和实际:强大的AI智能体(Agent)太贵了!
近年来,基于大型语言模型(LLM)的智能体展现出了惊人的解决复杂、多步骤任务的能力,比如帮你做深度市场调研、自动编程等。然而,这种强大能力的背后是巨大的成本。这些顶尖的智能体在解决一个问题时,可能需要与背后的大语言模型(如GPT-4)进行数百次的对话,每一次对话都是要花钱的。这导致了两个严重问题:
作者认为,AI智能体的研究已经走到了一个“拐点”,就像过去自然语言处理领域从盲目追求模型规模转向关注效率一样。现在,必须在“效果”和“效率”之间找到一个最佳平衡点,否则AI智能体将永远是“实验室里的玩具”,难以走向真正的实际应用。
1.核心问题:AI智能体存在严重的“效率-效果权衡”问题。
2.评估工具:为了量化并解决这个问题,作者引入了 Cost-of-Pass 度量标准。
3.分析方法:使用 Cost-of-Pass 作为尺子,对智能体的各个核心组件(大脑、规划、记忆等)进行细致的实证分析。
4.最终方案:根据分析结果,将每个组件的最优性价比配置组合起来,构建出 EFFICIENT AGENTS 框架。
想象一下,你家里的水管漏水了,你需要雇一个修理工来解决问题。市场上有两位修理工供你选择:
现在的问题是:从“最终把水管修好”这个目标来看,雇佣谁其实更划算?这个场景非常普遍,每个人都能理解“单次收费”和“最终解决问题的总花费”是两个不同的概念。这个比喻直观地展示了成本和成功率之间的权衡关系。
这个对应关系非常合理,因为它完美地捕捉了“效率-效果权衡”的本质。一个便宜但低效的AI智能体(像新手修理工A)可能需要多次尝试才能成功,累积成本会很高。而一个昂贵但高效的AI智能体(像专家修理工B)虽然单次成本高,但可能一次成功,总花费反而更低。Cost-of-Pass 正是为了衡量这种“长远来看的总花费”。
在我们的比喻中,如何计算两位修理工的“期望总花费”呢?
公式1:Cost-of-Pass的定义
公式2:单次尝试成本的计算
根据论文在Table 6中给出的最优配置,EFFICIENT AGENTS 的工作流程如下。
EFFICIENT AGENTS 的配置清单:
假设任务是:“请找出提出‘cost-of-pass’度量标准的论文,并总结其第一作者近期(过去两年内)的其他研究工作。”
1.Agent的核心大脑(GPT-4.1)接收到请求。
2.根据Plan Interval = 1的设定,它需要制定一个仅包含下一步行动的短时计划。
3.它分析任务,将其分解为两个子目标:a) 找到论文;b) 找到第一作者并搜索其近期工作。当前最优先的行动是找到这篇论文。
1.Agent识别出需要使用“网页搜索”工具。
2.根据Search Num = 5的配置,它调用GPT-4.1将核心词“cost-of-pass”扩展成5个不同的搜索查询,
例如:
"cost-of-pass metric for language models paper" "origin of cost-of-pass in AI agents" "who proposed cost-of-pass evaluation" "arXiv 'cost-of-pass: An economic framework'" "evaluating LLM efficiency cost-of-pass"
3.根据Search Source = Multi的配置,Agent将这5个查询发送给多个搜索引擎(如Google, Bing等)。
4.Agent收集所有返回的结果列表(标题、链接和摘要)。
1.Agent将观察结果存入其Simple Memory中。
2.当前任务的第一部分已基本完成。Agent的核心大脑(GPT-4.1)现在要处理第二部分。
3.由于Plan Interval = 1,它根据最新信息重新规划下一步。
1.Agent进入第2个大步骤(总限额为8步),执行新计划,如使用浏览器工具访问arXiv链接,确认第一作者。
2.观察结果再次被记录到Simple Memory中。
3.接着,再次执行搜索,查询“Mehmet Hamza Erol Google Scholar”。
4.从搜索结果中找到学者主页,提取论文列表,并筛选出近两年的条目。
5.每一步的观察都会被顺序地、简单地追加到Simple Memory中。
6.这个“规划 -> 行动 -> 观察 -> 记忆 -> 再规划”的循环会持续进行。由于BoN = 1,Agent在每一步都果断执行,不进行多余的采样。
1.当Agent认为信息足够(或达到Max Step = 8的上限)时,停止循环。
2.核心大脑(GPT-4.1)审视内存中的所有信息片段,并将它们整合成一段通顺的回答。
论文的 第3节 整体是一个大型的消融实验系列,通过控制变量法,验证了每个设计选择的合理性。
本文题目:Efficient Agents: Building Effective Agents While Reducing Cost
文章来自于微信公众号“沈公子今天读什么”,作者是“Tensorlong 看天下”。
【开源免费】OWL是一个完全开源免费的通用智能体项目。它可以远程开Ubuntu容器、自动挂载数据、做规划、执行任务,堪称「云端超级打工人」而且做到了开源界GAIA性能天花板,达到了57.7%,超越Huggingface 提出的Open Deep Research 55.15%的表现。
项目地址:GitHub:https://github.com/camel-ai/owl
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!
项目地址:https://github.com/coze-dev/coze-studio
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装:https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址:https://github.com/hitsz-ids/airda
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。
项目地址:https://github.com/InternLM/MindSearch
在线使用:https://mindsearch.openxlab.org.cn/
【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。
项目地址:https://github.com/miurla/morphic/tree/main
在线使用:https://www.morphic.sh/