UPenn提出Graph of Skills：把海量Skill连成技能图｜CC可用、支持Minimax2.7

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

UPenn联合马里兰、布朗大学等团队提出的Graph of Skills，正是为了解决这个问题。它的关键不只是让Agent “会组合Skill”，而是先把海量Skill库组织成一张技能图，再让Agent从中找出一套规模足够小、依赖足够全、可以直接执行的Skill组合。

UPenn提出Graph of Skills：把海量Skill连成技能图｜CC可用、支持Minimax2.7

项目地址：https://github.com/davidliuk/graph-of-skills

UPenn提出Graph of Skills：把海量Skill连成技能图｜CC可用、支持Minimax2.7

全局加载基线（Vanilla Skills）

工作机制：将整个技能库的说明文本全部提取出来，直接硬塞进大语言模型的上下文窗口中。
规模诅咒：在工具数量极少时，这种方法可行。但当库规模扩大后，Token成本会呈线性爆炸式增长。
注意力稀释：将数千个工具放入上下文中，会导致模型严重的信息过载。模型极易产生幻觉，并忽略掉隐藏在长文本中的关键领域约束条件。

向量检索（Vector Skills）

工作机制：利用嵌入模型（Embedding Model），检索出与您输入的任务查询在“语义上最相似”的前K个技能。
致命缺陷（先决条件鸿沟）：语义上的极度相似，完全不等于执行上的完备性。
工程现实脱节：在绝大多数工程任务中，与用户查询语义最匹配的，往往是顶层的高级求解器。但是，要让这个求解器成功运行，还需要底层的解析器、格式转换器、环境设置工具或领域特定的预处理器。
检索断链：这些底层依赖项在功能上不可或缺，但在文本语义上与用户的初始查询关联极弱。向量检索往往会遗漏这些底层工具，导致最终检索出的技能组合根本无法执行。

UPenn提出Graph of Skills：把海量Skill连成技能图｜CC可用、支持Minimax2.7

第一阶段：离线图谱构建

确定性解析：系统首先会确定性地解析技能包。通过读取YAML前置元数据和Markdown文档，提取出规范名称、功能摘要、输入输出（I/O）字段、领域标签、使用工具、脚本入口以及稳定的本地源码路径。
受限的LLM补全：当某些技能的文档极其残缺时，系统会调用轻量级的大语言模型进行辅助。
严格边界：研究者对LLM的使用施加了极严的限制。LLM仅被允许用于补全节点内部的语义字段（如能力描述、缺失的I/O），绝对不允许它凭空捏造图谱中的连边关系。这种“受限语义补全”保证了节点的质量，同时杜绝了幻觉连边。

依赖边（Dependency edges）：这是图谱的绝对核心。系统通过严格的输入输出（I/O）兼容性检查来确定有向边。如果技能A产生的输出，刚好是技能B要求的输入，系统就会在两者间建立依赖边。这代表了不可逾越的执行先决条件。
工作流边（Workflow）：捕获常见的多步流水线执行顺序。
语义边（Semantic）：连接极其相似或主题相邻的备用技能。
替代边（Alternative）：连接用于解决同一个子问题的不同实现方案。
稀疏验证机制：为了防止计算量失控，对于后三种非依赖边，系统不会进行全局的两两对比。而是先通过词法和语义相似度框定一个小范围的候选池，随后在候选池内进行关系验证，确保图谱保持稀疏且精准。

第二阶段：在线结构化检索

UPenn提出Graph of Skills：把海量Skill连成技能图｜CC可用、支持Minimax2.7

第一步：混合种子检索 (Hybrid Seeding)

UPenn提出Graph of Skills：把海量Skill连成技能图｜CC可用、支持Minimax2.7

第二步：逆向感知的图谱扩散 (Reverse-Aware Typed Diffusion)

UPenn提出Graph of Skills：把海量Skill连成技能图｜CC可用、支持Minimax2.7

第三步：预算约束下的重排序与填充 (Budgeted Reranking and Hydration)

UPenn提出Graph of Skills：把海量Skill连成技能图｜CC可用、支持Minimax2.7

测试环境与模型基准

SkillsBench基准：包含1000个真实的复杂技术任务，横跨宏观经济去趋势化、电网可行性分析、3D扫描分析、地震相位拾取等11个专业领域。
ALFWorld基准：一个交互式的具身模拟器测试环境。智能体需要通过文本指令，在虚拟家庭环境中完成导航、寻找物体和物理交互等多步家务活动（共140个完整序列）。
模型阵容：实验横跨了三个不同家族的大型语言模型，包括Claude Sonnet 4.5、MiniMax M2.7以及GPT-5.2 Codex。

核心性能对比

UPenn提出Graph of Skills：把海量Skill连成技能图｜CC可用、支持Minimax2.7

全面超越全局加载（Vanilla）：在所有的测试区块中，GoS取得了最高的平均任务奖励（即成功率）。与简单粗暴的全局加载相比，GoS在平均奖励提升43.6% 的同时，将模型摄入的输入Token数量大幅减少了37.8%。
碾压向量检索（Vector）：在维持极低Token消耗的前提下，GoS的任务成功率远超向量检索。在SkillsBench测试中，GoS比向量基线高出10.97分；在ALFWorld测试中，高出2.87分。
效率与表现的**平衡：全局加载虽然找得到技能，但成本失控且容易导致模型迷失；向量检索虽然省钱，但找出的技能组合残缺不全无法执行。GoS成为了在Token效率、运行时间和任务成功率之间的**平衡点。
具体模型数据：在ALFWorld测试中，使用Claude Sonnet 4.5，Vanilla的成功率为89.3%，消耗了1,524,401个Token；Vector向量检索成功率为93.6%，消耗28,407 Tokens；而 GoS达到了97.9% 的惊人成功率，仅消耗27,215 Tokens。

应对技能库规模膨胀

UPenn提出Graph of Skills：把海量Skill连成技能图｜CC可用、支持Minimax2.7

Token成本失控：当库规模从500扩展到2000时，全局加载基线（Vanilla）的输入Token消耗从193万激增到584万（接近3倍）。
GoS的超强抗压性：在相同的扩张规模下，GoS的Token消耗死死稳定在114万到138万之间。

UPenn提出Graph of Skills：把海量Skill连成技能图｜CC可用、支持Minimax2.7

论文在200到2000个技能规模上比较三种方法。结果显示，随着技能库变大，GoS依然保持更强的奖励表现，同时显著抑制了输入Token的增长速度。

规模越大，优势越显：在200个技能的小型库中，全局加载还能勉强维持微弱优势。但只要技能库规模达到中等（500及以上），GoS的任务成功率便全面且持续地超越其他两种基线。

核心组件缺失测试

移除图谱传播机制：系统退化为无法沿着结构关系寻找先决条件的单纯检索器。结果显示，Token消耗虽然降低了，但平均任务奖励从34.4暴跌至29.3（下降5.1分）。
进一步移除词法重排与检索：强制系统仅依赖单一的语义检索器进行初步筛选。任务奖励进一步崩塌至26.7（下降7.7分）。
数据结论：混合语义与词法检索提供了高质量的“初始切入点”，而图谱传播机制则负责将这些切入点转化为“逻辑完备的执行链条”。两者缺一不可。

UPenn提出Graph of Skills：把海量Skill连成技能图｜CC可用、支持Minimax2.7

这是 pedestrian-traffic-counting 的原文分析截图。研究者把GoS、Vanilla与Vector三种条件下的技能暴露方式并列对照，强调GoS的优势在于更早给出紧凑可执行的视觉流水线。

案例对比：向量检索彻底迷失，抓取了一堆不相关的自动化脚本。GoS凭借图谱关系，精准打包了核心的 pcap-analysis 工具及其配套的分流助手。只要关键分析包没有被遗漏，后续任务便迎刃而解。

UPenn提出Graph of Skills：把海量Skill连成技能图｜CC可用、支持Minimax2.7

这是 dapt-intrusion-detection 案例的截图。论文把它作为典型的GoS正向案例，用来说明一旦检索链里出现 pcap-analysis 及相邻助手，任务性质就会从“从零摸索”转成“按现成工具复用”。

反思案例：地震相位关联（超长依赖任务）

UPenn提出Graph of Skills：把海量Skill连成技能图｜CC可用、支持Minimax2.7

earthquake-phase-association 是论文专门保留的反例。研究者借此说明结构化检索不是自动成功，若恢复出的局部邻域仍然缺关键依赖，GoS依然可能输给信息更全但更嘈杂的全量加载。

深度绑定离线图谱质量：如果初始技能库的代码文档极其混乱，I/O模式完全不清晰，或者缺失执行元数据，离线阶段建立的边质量就会大幅下降，这将直接摧毁后续的所有检索流程。
图谱结构的静态滞后：目前的图谱系统主要依靠离线构建，是静态的。系统尚未具备“吃一堑长一智”的能力，无法根据智能体在线执行的成功轨迹、验证器的报错记录或用户的直接反馈，去实时动态更新图中的连边权重。

文章来自于“AI修猫Prompt”，作者“AI修猫Prompt”。

UPenn提出Graph of Skills：把海量Skill连成技能图 ｜CC可用、支持Minimax2.7

全局加载基线（Vanilla Skills）

向量检索（Vector Skills）

第一阶段：离线图谱构建

第二阶段：在线结构化检索

第一步：混合种子检索 (Hybrid Seeding)

第二步：逆向感知的图谱扩散 (Reverse-Aware Typed Diffusion)

第三步：预算约束下的重排序与填充 (Budgeted Reranking and Hydration)

测试环境与模型基准

核心性能对比

应对技能库规模膨胀

核心组件缺失测试

相关推荐

UPenn提出Graph of Skills：把海量Skill连成技能图｜CC可用、支持Minimax2.7