结构化扩展拿下Agent工具检索新SOTA,精准找到API|ICLR'26

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
结构化扩展拿下Agent工具检索新SOTA,精准找到API|ICLR'26
7394点击    2026-03-19 15:17

在大模型时代,Tool-Use已经成为智能体能力的核心组成部分。


从代码生成到数据分析,从网页查询到复杂API调用,LLM正在学会“使用工具”。但一个现实问题越来越明显:


工具真的难找。


来自宁波东方理工大学/宁波数字孪生(东方理工)研究院沈晓宇团队的研究工作,在ICLR 2026发表论文:


《Tools Are Under-Documented: Simple Document Expansion Boosts Tool Retrieval》


论文提出一个直接但重要的判断:


当前工具检索的瓶颈,往往不在模型能力,而在于工具文档。


目前,该论文已被ICLR 2026接收。


结构化扩展拿下Agent工具检索新SOTA,精准找到API|ICLR'26


背景:Tool Retrieval的隐形障碍


随着API数量扩展至数千甚至上万,工具检索逐渐成为Tool-Use系统中的关键前置步骤:模型必须先在庞大的工具集合中找到合适的工具,随后才能完成调用与执行。


近年来,一系列benchmark(如ToolBench、ToolRet等)推动了相关模型的发展。然而,在实际应用中,一个基础但长期被忽视的问题始终存在:工具文档本身往往质量参差不齐。许多工具的说明存在结构不统一、描述不完整等情况,不同API的功能介绍粒度差异很大。同时,用户查询通常以自然语言表达具体任务需求,而工具文档则多以简略的技术描述或函数说明呈现,二者之间往往存在明显的semantic gap


因此,问题并不完全在于模型是否能够理解工具,而在于当前工具文档缺乏足够结构化、可检索、并与用户查询语义对齐的表达方式。在这种情况下,即使强大的检索模型也很难稳定地匹配到正确工具。


结构化扩展拿下Agent工具检索新SOTA,精准找到API|ICLR'26


核心思路:先优化文档,再训练模型


该工作提出了一个看似简单却系统化的解决方案:


对工具文档进行结构化扩展(document expansion),再基于扩展文档进行训练与评估。


具体来说,通过对工具文档进行结构化扩展(document expansion),将原本零散、简略的API描述补充为更完整、可检索的语义信息,然后基于扩展后的文档重新构建训练数据并训练模型。


相比直接改进模型结构,这种方式从数据与文档质量入手,系统性地缩小用户查询与工具描述之间的语义差距。


论文构建了三个关键组件:


1. TOOL-REX:扩展版工具检索基准


在原有ToolRet基准的基础上,论文引入了结构化的tool_profile字段,对工具文档进行系统扩展。新增信息包括:function(工具的核心功能)、tags(描述工具能力的关键词)、when_to_use(适用场景与任务类型)、limitation(使用限制或边界条件)


这些字段通过一个低成本的自动化文档扩展pipeline构建完成。具体来说,首先使用Qwen3-32B对原始工具文档进行结构化扩展,将原本分散在文档中的功能描述、使用条件和限制信息整理为统一的tool_profile结构。扩展过程严格以原始文档为依据,所有生成内容都必须能够在原文中找到语义支持。


随后,系统使用LLaMA-3.1-70B对生成结果进行语义一致性验证,检查扩展字段是否忠实于原始文档,并通过规则检查确保输出结构合法且不为空。对于少量未通过验证的样本,再使用更强的模型(如GPT-4o)进行重新生成与修正。最后,通过抽样人工审核验证扩展文档的真实性与一致性,从而确保整个扩展过程既自动化又可靠。


通过这一“LLM扩展→LLM校验→再生成修正→人工抽检”的流程,原始工具文档被系统性地补充为结构化的工具描述,使文档语义更加完整,同时保持对原始工具信息的忠实表达。


结构化扩展拿下Agent工具检索新SOTA,精准找到API|ICLR'26


2. 大规模训练语料


基于一套低成本的自动化数据构建pipeline,论文进一步生成了大规模工具检索训练数据,包括:


  • 50k embedding训练样本


  • 200k reranker训练样本


这些数据均基于结构化扩展后的文档构建,形成了目前规模最大的结构化工具检索训练语料之一,为后续模型训练提供了更丰富且语义对齐的数据基础。


3. 两个专用模型


在上述数据基础上,论文训练了两个专门面向工具检索场景的模型,填补了该领域缺乏专用模型的空白:


Tool-Embed:面向dense retrieval的嵌入模型,用于在大规模工具库中进行高效召回


Tool-Rank:基于大语言模型的LLM reranker,用于在候选工具集合中进行精细排序


通过“结构化文档+大规模数据+专用模型”的组合,该工作构建了一套完整的工具检索解决方案。


结构化扩展拿下Agent工具检索新SOTA,精准找到API|ICLR'26


结果:简单扩展,显著提升


在ToolRet与新构建的TOOL-REX基准上的实验表明,仅通过对工具文档进行结构化扩展,就能够带来稳定且显著的性能提升。


首先,文档扩展本身就能明显改善检索效果。在相同模型结构下,仅替换为扩展后的工具文档,检索性能便出现明显提升,说明文档表达质量对工具检索具有直接影响。


在此基础上,论文训练的两个专用模型Tool-Embed与Tool-Rank在多个评测任务上进一步达到新的SOTA。不仅整体指标提升明显,在具体案例分析中也可以看到更加直观的改进:原本在候选列表Top10之外的正确工具,能够被重新检索并提升到更靠前的位置。


这些提升并不是来自更复杂的推理过程,也不是依赖更大规模的模型,而是源于更完整、更结构化的语义表达


更深层的发现


论文进一步分析了不同结构化字段对检索性能的贡献,发现不同信息在检索流程中发挥着不同作用。


其中,function与tags等字段对dense retrieval的影响最为显著,它们为模型提供了更加明确的功能语义,使工具在向量空间中的表示更加清晰。而when_to_use等场景描述则在reranking阶段发挥更重要的作用,帮助模型判断工具是否真正符合具体任务需求。


同时,扩展后的文档不仅能够提升训练阶段的效果,也能在评测过程中带来更稳定的检索表现,减少因描述不完整导致的语义匹配误差。


这些分析共同表明:


文档质量本身就是检索系统的重要组成部分。


结构化扩展拿下Agent工具检索新SOTA,精准找到API|ICLR'26


总结


当“模型增强”成为默认方向时,这项研究给出了一个更朴素却有效的答案:


在工具检索任务中,提升文档表达质量,往往比增加模型复杂度,更直接地改善检索效果。


Better documentation → Better retrieval.


论文标题:
Tools are under-documented: Simple Document Expansion Boosts Tool Retrieval
第一作者:
路璇、黄浩航
通讯作者:
沈晓宇(宁波东方理工大学)
arxiv:
https://arxiv.org/abs/2510.22670
github:
https://github.com/EIT-NLP/Tool-REX
作者介绍:

第一作者路璇、黄浩航,分别为宁波东方理工大学/宁波数字孪生(东方理工)研究院沈晓宇团队博士生(宁波东方理工大学与上海交通大学联培)、实习生,研究方向信息检索和高效推理。在ICLR、CVPR、EMNLP等顶级会议发表多篇论文。更多科研项目成果请参阅实验室主页:https://idt.eitech.edu.cn/nlp/#/


文章来自于“量子位”,作者 “路璇、黄浩航”。

关键词: AI , 模型训练 , TOOL-REX , AI检索
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI

4
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/