UPenn提出Graph of Skills:把海量Skill连成技能图 |CC可用、支持Minimax2.7

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
UPenn提出Graph of Skills:把海量Skill连成技能图 |CC可用、支持Minimax2.7
7598点击    2026-04-17 09:11

很多人以为,给Agent装上更多Skill,它就会变得更强。 


但现实往往正好相反:当Skill库从几十个膨胀到几千、几万个时,Agent最先失去的,往往不是推理能力,而是“找对Skill”的能力。


Agent可能知道自己要做什么,却拿不到那套真正能把任务跑通的完整组合。 把所有Skill全塞进Prompt,Token会迅速爆炸,关键信息会被淹没;只靠向量检索,又常常只能找回几个“看起来相关”的高层Skill,真正决定任务能否执行的解析器、预处理器和依赖项反而会被漏掉。


UPenn提出Graph of Skills:把海量Skill连成技能图 |CC可用、支持Minimax2.7


UPenn联合马里兰、布朗大学等团队提出的Graph of Skills,正是为了解决这个问题。 它的关键不只是让Agent “会组合Skill”,而是先把海量Skill库组织成一张技能图,再让Agent从中找出一套规模足够小、依赖足够全、可以直接执行的Skill组合。


UPenn提出Graph of Skills:把海量Skill连成技能图 |CC可用、支持Minimax2.7


换句话说,GoS解决的不是“Agent会不会调Skill”,而是一个更现实、也更关键的问题:


当Skill库足够大时,Agent怎么才能一次找对那一套真正能跑通任务的Skill。


项目地址:https://github.com/davidliuk/graph-of-skills


UPenn提出Graph of Skills:把海量Skill连成技能图 |CC可用、支持Minimax2.7


现有方案的局限性剖析


在Graph of Skill出现之前,业界处理海量技能库主要依赖两种传统策略。研究者在论文中详细指出了它们的致命缺陷。


UPenn提出Graph of Skills:把海量Skill连成技能图 |CC可用、支持Minimax2.7

论文将Vanilla Skills、Vector Skills与Graph of Skills并列对照,直观展示了“上下文过载”和“先决条件鸿沟”这两个核心问题,以及GoS如何通过结构化检索补齐依赖链。


全局加载基线(Vanilla Skills)


这是一种最直接的处理方式。


  • 工作机制:将整个技能库的说明文本全部提取出来,直接硬塞进大语言模型的上下文窗口中。
  • 规模诅咒:在工具数量极少时,这种方法可行。但当库规模扩大后,Token成本会呈线性爆炸式增长。
  • 注意力稀释:将数千个工具放入上下文中,会导致模型严重的信息过载。模型极易产生幻觉,并忽略掉隐藏在长文本中的关键领域约束条件。


向量检索(Vector Skills)


为了解决上下文过长的问题,业界引入了基于稠密向量(Dense Retrieval)的检索方案。


  • 工作机制:利用嵌入模型(Embedding Model),检索出与您输入的任务查询在“语义上最相似”的前K个技能。
  • 致命缺陷(先决条件鸿沟):语义上的极度相似,完全不等于执行上的完备性。
  • 工程现实脱节:在绝大多数工程任务中,与用户查询语义最匹配的,往往是顶层的高级求解器。但是,要让这个求解器成功运行,还需要底层的解析器、格式转换器、环境设置工具或领域特定的预处理器。
  • 检索断链:这些底层依赖项在功能上不可或缺,但在文本语义上与用户的初始查询关联极弱。向量检索往往会遗漏这些底层工具,导致最终检索出的技能组合根本无法执行。


核心突破:技能图谱(GoS)架构详解


为了打破上述困境,研究者提出了一种全新的推理时结构化检索层——Graph of Skills (GoS)


GoS的核心思想彻底改变了对“技能”的定义:拒绝将Skill视为孤立的文本片段,而是将它们重构为一个有向的、包含依赖关系的执行图谱。 系统目标是在严格的上下文预算内,检索出一个具备依赖感知(Dependency-aware)的、完整的可执行技能包(Skill Bundle)。整个流程分为“离线图谱构建”和“在线结构化检索”两个主要阶段。


UPenn提出Graph of Skills:把海量Skill连成技能图 |CC可用、支持Minimax2.7

这张总览图把GoS拆成三部分:左侧是离线索引与图谱构建,中间是带类型的技能关系图,右侧是在线检索、反向扩散、重排序与预算约束下的技能实例化。


第一阶段:离线图谱构建


在您实际输入问题之前,GoS需要在离线状态下,将本地的杂乱技能包转化为一个结构化的带类型有向图。


1.技能节点归一化(Skill Normalization)


  • 确定性解析:系统首先会确定性地解析技能包。通过读取YAML前置元数据和Markdown文档,提取出规范名称、功能摘要、输入输出(I/O)字段、领域标签、使用工具、脚本入口以及稳定的本地源码路径。
  • 受限的LLM补全:当某些技能的文档极其残缺时,系统会调用轻量级的大语言模型进行辅助。
  • 严格边界:研究者对LLM的使用施加了极严的限制。LLM仅被允许用于补全节点内部的语义字段(如能力描述、缺失的I/O),绝对不允许它凭空捏造图谱中的连边关系。这种“受限语义补全”保证了节点的质量,同时杜绝了幻觉连边。


2.推导带类型的边(Typed Relation Induction)


GoS并非只有一种连接方式,它构建了四种不同类型的边:


  • 依赖边(Dependency edges):这是图谱的绝对核心。系统通过严格的输入输出(I/O)兼容性检查来确定有向边。如果技能A产生的输出,刚好是技能B要求的输入,系统就会在两者间建立依赖边。这代表了不可逾越的执行先决条件。
  • 工作流边(Workflow):捕获常见的多步流水线执行顺序。
  • 语义边(Semantic):连接极其相似或主题相邻的备用技能。
  • 替代边(Alternative):连接用于解决同一个子问题的不同实现方案。
  • 稀疏验证机制:为了防止计算量失控,对于后三种非依赖边,系统不会进行全局的两两对比。而是先通过词法和语义相似度框定一个小范围的候选池,随后在候选池内进行关系验证,确保图谱保持稀疏且精准。


第二阶段:在线结构化检索


UPenn提出Graph of Skills:把海量Skill连成技能图 |CC可用、支持Minimax2.7


第一步:混合种子检索 (Hybrid Seeding)


UPenn提出Graph of Skills:把海量Skill连成技能图 |CC可用、支持Minimax2.7


第二步:逆向感知的图谱扩散 (Reverse-Aware Typed Diffusion)


这是GoS最惊艳的数学与算法设计。为了从匹配到的高层技能“顺藤摸瓜”找到其所需的底层依赖(如预处理器、解析器),GoS必须允许相关性在图中反向传播。 GoS构建了一个统一的转移算子: 


UPenn提出Graph of Skills:把海量Skill连成技能图 |CC可用、支持Minimax2.7


第三步:预算约束下的重排序与填充 (Budgeted Reranking and Hydration)


扩散结束后,GoS会将图谱的全局结构分数与节点的局部查询匹配度结合进行重排序:


UPenn提出Graph of Skills:把海量Skill连成技能图 |CC可用、支持Minimax2.7


最后,系统会根据上下文的硬性预算,按照排名高低对技能进行“实例化”(Hydration),也就是将技能转化为智能体可以直接阅读和使用的载体(包括稳定的本地源码路径、能力摘要和执行注意事项),确保输出不仅紧凑而且立即可执行。


实验设计与数据论证


为了验证上述架构的实际效能,研究者在极具挑战性的基准测试上进行了全面评估。


测试环境与模型基准


  • SkillsBench基准:包含1000个真实的复杂技术任务,横跨宏观经济去趋势化、电网可行性分析、3D扫描分析、地震相位拾取等11个专业领域。
  • ALFWorld基准:一个交互式的具身模拟器测试环境。智能体需要通过文本指令,在虚拟家庭环境中完成导航、寻找物体和物理交互等多步家务活动(共140个完整序列)。
  • 模型阵容:实验横跨了三个不同家族的大型语言模型,包括Claude Sonnet 4.5、MiniMax M2.7以及GPT-5.2 Codex。


核心性能对比


实验数据展现了高度一致的结论。


UPenn提出Graph of Skills:把海量Skill连成技能图 |CC可用、支持Minimax2.7

研究者在SkillsBench与ALFWorld两个基准上,按奖励、Token和运行时对比Vanilla、Vector与GoS三种方法。GoS在六个模型-任务组合中都拿到最高平均奖励,同时维持明显更紧凑的上下文成本。


  • 全面超越全局加载(Vanilla):在所有的测试区块中,GoS取得了最高的平均任务奖励(即成功率)。与简单粗暴的全局加载相比,GoS在平均奖励提升43.6% 的同时,将模型摄入的输入Token数量大幅减少了37.8%。
  • 碾压向量检索(Vector):在维持极低Token消耗的前提下,GoS的任务成功率远超向量检索。在SkillsBench测试中,GoS比向量基线高出10.97分;在ALFWorld测试中,高出2.87分。
  • 效率与表现的最佳平衡:全局加载虽然找得到技能,但成本失控且容易导致模型迷失;向量检索虽然省钱,但找出的技能组合残缺不全无法执行。GoS成为了在Token效率、运行时间和任务成功率之间的最佳平衡点。
  • 具体模型数据:在ALFWorld测试中,使用Claude Sonnet 4.5,Vanilla的成功率为89.3%,消耗了1,524,401个Token;Vector向量检索成功率为93.6%,消耗28,407 Tokens;而 GoS达到了97.9% 的惊人成功率,仅消耗27,215 Tokens。


深度消融实验与扩展性分析


研究者并未止步于表面数据,他们进一步解剖了GoS架构,以验证各个组件的真实价值。


应对技能库规模膨胀


研究者测试了技能库从200个飙升至500、1000、2000个时的系统表现(基于GPT-5.2 Codex)。


UPenn提出Graph of Skills:把海量Skill连成技能图 |CC可用、支持Minimax2.7

这是论文对200、500、1000、2000个技能规模给出的原始结果表。它和下方趋势图相互印证,显示GoS从中等规模开始持续保持更高奖励,而检索式方案都显著压住了Token膨胀。


  • Token成本失控:当库规模从500扩展到2000时,全局加载基线(Vanilla)的输入Token消耗从193万激增到584万(接近3倍)。
  • GoS的超强抗压性:在相同的扩张规模下,GoS的Token消耗死死稳定在114万到138万之间。


UPenn提出Graph of Skills:把海量Skill连成技能图 |CC可用、支持Minimax2.7

论文在200到2000个技能规模上比较三种方法。结果显示,随着技能库变大,GoS依然保持更强的奖励表现,同时显著抑制了输入Token的增长速度。


  • 规模越大,优势越显:在200个技能的小型库中,全局加载还能勉强维持微弱优势。但只要技能库规模达到中等(500及以上),GoS的任务成功率便全面且持续地超越其他两种基线。


核心组件缺失测试


研究者在拥有1000个技能的库中,逐步拆除了GoS的核心组件,观察系统衰退情况:


  • 移除图谱传播机制:系统退化为无法沿着结构关系寻找先决条件的单纯检索器。结果显示,Token消耗虽然降低了,但平均任务奖励从34.4暴跌至29.3(下降5.1分)。
  • 进一步移除词法重排与检索:强制系统仅依赖单一的语义检索器进行初步筛选。任务奖励进一步崩塌至26.7(下降7.7分)。
  • 数据结论:混合语义与词法检索提供了高质量的“初始切入点”,而图谱传播机制则负责将这些切入点转化为“逻辑完备的执行链条”。两者缺一不可。


UPenn提出Graph of Skills:把海量Skill连成技能图 |CC可用、支持Minimax2.7

组件消融实验显示,只去掉图传播,奖励就从34.4降到29.3;再去掉词法检索与重排,进一步降到26.7,说明高质量种子和结构扩散在GoS中是互补关系。


真实轨迹定性分析


为了让系统表现更直观,研究者提取了多个真实的智能体执行轨迹(Trajectories)进行解剖。


UPenn提出Graph of Skills:把海量Skill连成技能图 |CC可用、支持Minimax2.7

附录把10个qualitative cases中真正进入执行链条的技能包并排列出,并区分Useful与Noisy。这个总表能直接看出GoS往往给出更紧凑、更接近可执行分解的组合Skill。


行人交通计数(视觉流水线任务)


  • 任务需求:提取视频帧、进行行人计数、格式化输出。
  • 向量检索表现:抓取了零散的上下文,智能体无法将其组装成工作流,任务失败(得分0.041)。
  • 全局加载表现:经过漫长的搜索找到了相关工具,但过程充满噪音,获得部分分数(得分0.267)。
  • GoS表现:开局直接抛出一个紧凑的视觉流水线组合(包含视频帧提取、模型计数、视觉处理工具),智能体直接执行完美通关(得分0.417)。


UPenn提出Graph of Skills:把海量Skill连成技能图 |CC可用、支持Minimax2.7

这是 pedestrian-traffic-counting 的原文分析截图。研究者把GoS、Vanilla与Vector三种条件下的技能暴露方式并列对照,强调GoS的优势在于更早给出紧凑可执行的视觉流水线。


网络入侵检测(深度分析任务)


  • 任务需求:需要极度专业的PCAP数据包分析工具。
  • 案例对比:向量检索彻底迷失,抓取了一堆不相关的自动化脚本。GoS凭借图谱关系,精准打包了核心的 pcap-analysis 工具及其配套的分流助手。只要关键分析包没有被遗漏,后续任务便迎刃而解。


UPenn提出Graph of Skills:把海量Skill连成技能图 |CC可用、支持Minimax2.7


UPenn提出Graph of Skills:把海量Skill连成技能图 |CC可用、支持Minimax2.7

这是 dapt-intrusion-detection 案例的截图。论文把它作为典型的GoS正向案例,用来说明一旦检索链里出现 pcap-analysis 及相邻助手,任务性质就会从“从零摸索”转成“按现成工具复用”。


  • 反思案例:地震相位关联(超长依赖任务)
  • 真实局限:在这个任务中,全局加载基线虽然笨重,但依靠蛮力拼凑出了一个包含5个工具的地震处理栈,成功过关。而GoS检索出的依赖关系链缺了一环,混入了一个无关技能,导致任务彻底失败。
  • 案例启示:这诚实地暴露了架构的边界。结构化检索能够发挥作用的前提,是图谱恢复的局部邻域必须足够完整。如果图谱本身的覆盖面存在断层,检索出的技能包依然无法执行。


UPenn提出Graph of Skills:把海量Skill连成技能图 |CC可用、支持Minimax2.7

earthquake-phase-association 是论文专门保留的反例。研究者借此说明结构化检索不是自动成功,若恢复出的局部邻域仍然缺关键依赖,GoS依然可能输给信息更全但更嘈杂的全量加载。


局限性


尽管在处理海量技能库方面展现出极强的统治力,研究者依然客观地指出了GoS当前的局限性:


  • 深度绑定离线图谱质量:如果初始技能库的代码文档极其混乱,I/O模式完全不清晰,或者缺失执行元数据,离线阶段建立的边质量就会大幅下降,这将直接摧毁后续的所有检索流程。
  • 图谱结构的静态滞后:目前的图谱系统主要依靠离线构建,是静态的。系统尚未具备“吃一堑长一智”的能力,无法根据智能体在线执行的成功轨迹、验证器的报错记录或用户的直接反馈,去实时动态更新图中的连边权重。


研究者表示,未来的探索方向将集中于实现在线边权重的自适应更新、基于成功执行轨迹的图谱进化、对候选技能包进行更强力的重排序,以及在多模态和更具交互性的智能体环境中进行广泛测试。


结语


Graph of Skills (GoS) 为我们揭示了一个关键事实:面对庞大的工具生态,单独考察工具的文本语义是远远不够的。技能之间天然存在着复杂的依赖、工作流和先后逻辑。


通过将零散的技能转化为可被算法遍历的有向图谱,结合混合检索与逆向扩散机制,GoS在保证极低算力成本(Token消耗)的同时,向大模型提供了一套开箱即用的执行逻辑闭环。这为突破下一代超大规模智能体系统的检索瓶颈,提供了一套极具工程价值和理论深度的解决方案。


文章来自于“AI修猫Prompt”,作者“AI修猫Prompt”。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

4
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI

5
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0