周末我在深圳办了两场AI跨境电商活动,加起来600人。
聊到 怎么落地的时候,问我最多的问题是:饼干哥哥,你用的是哪些 ,能不能分享一些好用的?
我说,没有。
那些公开的 Skill 都不好用。不是因为写得差,是因为它们根本就不是为你的业务写的。
昨晚,我把一张公司内部的 pSEO 业务流程图发给了我的一只龙虾。
5分钟后,它交付了这些东西:
完整梳理了业务 SOP,拆成了三个 Skill,写完了 9 个文件,自测了 3 个评测用例全部通过,安全审计清单 5 项全绿,安装到了正式目录,可以直接运行。
我全程说了不到 10 句话。
这不是演示,这是在飞书里真实发生的。步骤截图在后面。
但如果1个月前你问我,OpenClaw 好不好用——我的答案和大多数人一样。装了几十个 Skill,跑起来的没几个,更别说真正干活。
这中间发生了什么?
ClawHub 上现在有超过 2800 个 Skill。
很多人第一件事就是批量装,装完发现龙虾还是在那里发呆,或者干活干到一半就出错了。
问题出在哪?
通用 Skill 解决的是通用问题。但跨境电商的业务流程,每家公司都不一样。你用飞书多维表格管 SKU,他用 Shopify 后台;你的竞品监控跑 Amazon,他的跑速卖通;你的 KOL 开发发的是 Gmail,他的走 WhatsApp Business。
把别人的 Skill 装进来,充其量是个参考,不是解决方案。
真正能跑起来的 Skill,一定是深度绑定你自己业务流程的。
好,问题来了:怎么把自己的业务,变成龙虾能干的 Skill?
前天我在深圳办了一场 OpenClaw + 跨境电商的黑客松闭门会。有一组同学专门讨论这个问题。他们现场给出了一个公式:
好的 Skill = 定场景 + 立目标 + 理规则 + 给示例 + 划边界
翻译成人话:什么时候用、用完手里有什么、每步怎么做、好案例和坑在哪、边界在哪。
图自@Ena
思路是对的,但嘉宾说了一句让我有点意外的话:开发 Skill 一定要用最顶的海外模型,Claude Opus、GPT-5,不然质量出不来。
我当时没有当场反驳。
昨天陆续刷到智谱发布了新模型 。
定位只有六个字:全球首个龙虾模型。
不是通用模型加了个龙虾适配,而是从训练阶段就针对龙虾工作流专项优化。它重点增强了四个方向:工具调用稳定性、复杂指令拆解、长任务持续执行不中断、高吞吐长链路。
你可能会问,开发 Skill 需要这些能力吗?
需要,而且非常需要。
开发一个完整的 Skill,模型要在一次会话里做这些事:理解业务意图、追问业务细节、梳理 SOP 逻辑、规划 Skill 架构、生成多个文件、自测评测用例、跑安全审计、执行安装命令。
这个过程跨越十几轮对话,涉及大量工具调用,中途不能失忆,不能崩。
这正好是 GLM-5-Turbo 专门练过的场景。
而且它有 200K 的上下文窗口,开发过程中所有的业务背景、SOP 细节、文件内容都在视野里,不会到后面把前面的需求忘掉。
在 ZClawBench(智谱自研的真实龙虾任务评测基准)上,GLM-5-Turbo 在 OpenClaw 场景里整体领先多家主流模型。内测阶段以匿名身份接入 AutoClaw 澳龙,90% 的用户盲测认为它优于其他国产模型。
扣子 Coze、美团、字节 TRAE 的测评团队用的词是:指令遵循力压群雄、长任务稳健不掉链子、高吞吐执行极快不失速。
这些评价,翻译成 Skill 开发场景的意思是:它能跟着你把一个 Skill 从头跑到尾,不会中途跑飞。
我现在OpenClaw就是用的它。
好,回到正题。
Skill 开发这件事,分三个层次。
最快的路径:把业务 SOP 整理清楚,给 GLM-5-Turbo 一套精心设计的提示词,让它直接帮你生成 Skill 文件。
这套提示词要做四件事:
第一,给模型设定角色和开发规范。告诉它 SKILL.md 的结构要求、文件组织方式、执行者分配逻辑(哪些操作用脚本、哪些用 Sub、哪些用主 Agent)。
第二,强制先做边界审查再动手。加一条指令:在你开始生成任何文件之前,先检查 SOP 是否有逻辑漏洞,有任何不清楚的地方立刻停下来反问我。
第三,要求先输出架构蓝图等确认后再写文件。先告诉我目录结构是什么、每一步分配给谁执行、为什么这么分,等我回复「架构确认」再动手。
第四,所有高风险操作加 BLOCKING 标签。写入数据库、发送消息、修改状态,必须强制人工确认才能继续。
我们团队的小伙伴在黑客松期间就用这套方式开发了飞书竞价监控 Skill。
模型收到提示词后,没有直接动手,而是先审查 SOP,发现了三个问题:字段类型与实际表格不一致、有个未提及的字段 Current_Price 用途不明、命名空间前缀写错了。
全部反问确认之后,才输出架构蓝图,等「架构确认」指令,再逐个生成文件。
整个过程 10 分钟,就交付了完整的 Skill。
GLM-5-Turbo 在这个环节的价值是稳。复杂的业务逻辑拆解它不会漏步骤,工具调用链条长它不会中途报错,多轮确认之后它还记得最开始的需求边界。
用的过程你就会发现,它说的东西真的好长好多。。啥都考虑进去了。。
OK,青铜层次能用,但有个隐藏问题:每次开发新 Skill,都要重新整理 SOP、重新写提示词。整理质量不稳定,提示词写得不一样,最后 Skill 质量也不稳定。
接下来升级到「白银」玩法
把开发 Skill 这件事本身,封装成一个可复用的 Skill。
这个 Skill 的核心是。它不会直接帮你写 Skill,而是先系统地问你五个维度的问题,直到业务逻辑完全清晰,再进入开发阶段。
五个维度对应上面的公式:
WHEN 定场景:这个 Skill 什么时候用,用户会说什么话触发它,什么情况下明确不用
WHAT 立目标:跑完这个 Skill 手里有什么,合格的输出是什么样,什么叫失败
HOW 理规则:人工完成这件事的完整步骤,每步的判断逻辑,哪步最容易出错
REFERENCE 给示例:有没有好案例参考,踩过哪些坑,有没有现成模板
LIMITS 划边界:哪些操作必须人工确认,异常情况怎么处理,什么绝对不能做
五个维度问完,Skill 会整理出 SOP 确认稿让你确认,梳理得非常细:
再输出 Skill 规划方案——这个场景要拆几个 Skill、每个 Skill 职责是什么、建议开发顺序。复杂任务就是需要这样多skills协作。
SOP 梳理的质量被标准化了。不管是你自己来,还是团队里其他人来,走完这个流程,输出的 Skill 质量会稳定在一个水准之上。
GLM-5-Turbo 的长任务持续执行能力在这个层次体现得最明显。五维问答通常需要 3-4 轮对话,中间还要跑搜索、整理 SOP、规划架构,整个链条很长。它能从头到尾保持状态,不会到第三轮的时候把第一轮确认好的边界忘掉。
但白银层次还没解决一个问题:Skill 用了一段时间之后需要迭代,怎么管?
随着 Skill 越来越多,哪些在用、哪些出了问题、哪些需要迭代,这些信息如果没人管,Skill 库会越来越乱。
这才是昨晚,也就是文章开头故事的底层逻辑。
不是开发一个 Skill,而是建一个专门负责 Skill 生命周期的 Agent。
这个 Agent 的工作流完整跑下来是这样的:
你发一张业务流程图,说「我想把这个场景做成 Skill」。Agent 先去搜索行业**实践,然后用五维提问框架问你业务细节,整理出 SOP 确认稿让你确认,规划 Skill 方案,你决定先开发哪个,它进入开发模式,生成完整的 Skill 文件结构,自测,安全审计,安装到正式目录,记入长期记忆。
每天早上自动跑 Skill 健康巡检,每周一分析哪些 Skill 使用频率高、哪些出过错误,每周五跑安全复查。
安全这块有硬规定:capabilities 字段只申请实际用到的权限、没有硬编码密钥、所有写操作前有人工确认节点、异常情况有明确的处理逻辑。审计没过不安装,哪怕你催。
核心配置四个文件:
SOUL.md 刻入 Agent 的身份和底线——使命是业务翻译官,五维问答没跑完不规划 Skill,SOP 确认稿没得到用户确认不开始写文件,安全审计没过不安装。
AGENTS.md 定义七个开发阶段的操作规范,从需求接收、五维提问、SOP 确认、Skill 规划、文件开发、自测,到安全审计和安装,每个阶段的触发条件和交付标准都写死。
TOOLS.md 定义可用工具和每个工具的使用边界,包括搜索调研、文件操作、代码执行、记忆系统、Agent 间通信。
HEARTBEAT.md 定义三个定时任务——每日巡检、每周使用分析、每周安全复查。
我把 NGS 的 pSEO 内容引擎架构图发给了这个 Agent。
它跑了九个问题的五维问答,整理出 SOP 确认稿,我确认之后它规划出「1 主 + 2 子」的三个 Skill 方案,然后顺序开发,9 个文件全部生成,自测三个评测用例全通过,安全审计五项全绿,安装完成,更新 MEMORY.md 归档。
这就是开头那一幕的完整版本。
直接让它跑一个关键词的写文章测试:
也是能走完完整流程,并且给我写好的文章结果。
GLM-5-Turbo 在黄金层次的价值最难被替代:从你说第一句话到三个 Skill 全部安装,中间跨越几十轮工具调用和多次 SubAgent 并行,整个链条一个小时,它没有中途失忆,没有跑飞,每个关键节点该停下来确认的都停了,该自己跑的都跑完了。
这正是它被定位为龙虾模型的原因——不是最聪明,是最能跑完一个完整任务。
福利!黄金层次的Agent 完整配置文件(SOUL.md / AGENTS.md / TOOLS.md / HEARTBEAT.md)&提示词
关注公众号「饼干哥哥 AGI」
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/243659.html