AI Skills插件开发避坑指南：从环境搭建到上线

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

2026年的技术圈，一个感受越来越强烈——测试工程师的焦虑感正在从个体蔓延到整个行业。

前两天和一个做自动化测试的朋友聊，他说最近最怕的不是项目延期，而是leader突然说“这个用AI生成一下”。用例自动生成了，脚本自动写了，甚至连bug定位都能靠模型推理了。他问我：那我们测什么？

这个问题，最近被反复提起。

信通院最新报告显示，2026年已有70%的企业测试用例由AI生成。效率提升5-10倍、成本下降60%+，不再是愿景，而是企业标配。Claude Code和Codex已经具备自主生成代码、自动修复、连续迭代的能力，工程执行层正在被快速压缩。

面对这个变化，有人选择焦虑，有人开始探索新路。

过去三个月，我帮团队搭建了一套基于AI Skills的测试辅助体系。从环境配置踩坑到上线落地，踩了不少坑，也积累了一些经验。这篇文章把我踩过的坑和总结的方法论整理出来，希望对正在探索这个方向的你有所帮助。

SWE-bench Verified榜单上，顶级AI编程工具解决真实GitHub问题的比例已从2023年的48.5%跃升至78.8%。这意味着AI独立完成真实开发任务的能力，两年翻了近一倍。

工具层面的竞争更是白热化。

Claude Code以77.4%的SWE-bench得分领跑，擅长终端原生工作流和多文件深度推理。Cursor以约76.8%的得分紧随其后，主打IDE原生体验和多智能体并行。Windsurf和GitHub Copilot位居第二梯队。开源新秀OpenClaw则以灵活接入多模型和成本可控的优势，吸引了大量开发者关注。

最值得关注的是Claude Code最近上线的Computer Use功能——AI可以自己启动应用、复现bug、修复代码、验证结果，全程不离终端。官方演示中，一个指令下去，AI自己跑完了“启动应用→复现bug→修复→测试”的完整闭环。

这对测试行业意味着什么？

测试用例生成、自动化脚本编写、Bug定位这三块执行层工作，正在被快速接管。

面对这个现实，有两种反应。一种是焦虑“AI会不会取代我”。另一种是追问“那我该做什么”。

我选择后者。

腾讯云在2026年的技术分享中，将企业AI Coding实践分为三个阶段：AI辅助开发（AI解决单点问题，人控制流程）、AI驱动开发（AI接管单点环节并闭环完成任务，人转为监督者）、AI原生开发（AI Agent Teams端到端闭环，人只验收结果）。

2026年，我们正在从第一阶段向第二阶段过渡。

这个转变的核心变化是什么？能力重心在迁移。

过去的能力重心是：掌握语言、框架、工具链，能写出可运行的代码。新的能力重心是：理解业务流程、抽象问题、设计规则体系、判断AI产出质量、构建可复用的能力封装。

可被截图传播的观点句：当AI能写完整个项目时，决定输出去留的仍然是人的判断力。

测试工程师的核心价值正在从“写用例”跃升为“设计生成系统”。区别在于：前者关注“怎么做”，后者关注“为什么这么做”和“怎么保证一直做对”。

传统方式下，要让AI完成一个专业任务，你需要把完整的指令、工具使用说明、背景知识全部写进提示词。结果是：token消耗巨大，每次重复输入，不同场景无法复用。

2025年10月，Anthropic发布Claude Skills。两个月后，Agent Skills作为开放标准被发布，OpenAI、GitHub、VS Code、Cursor均已跟进。本质上，Skills是“通用Agent的扩展包”——通过加载不同Skill包，Agent可以具备特定领域的专业能力。

核心架构采用三层渐进式披露（Progressive Disclosure）设计：

3826de1b-3060-47da-9301-4212218f5a45

第一层是元数据。每个Skill的SKILL.md开头有YAML格式的名称和描述，Agent启动时预加载到系统提示中，用于判断该Skill是否与当前任务相关。

第二层是SKILL.md主体。当Agent判断某个Skill与任务相关时，会加载完整的Markdown文档作为上下文，包含详细指令、注意事项、示例等。

第三层是附加文件和脚本。复杂场景下，Skill文件夹可包含脚本代码或额外说明文档，仅在需要时加载或执行。

这个设计解决了传统方式的三个痛点：按需加载，无关任务只消耗几十个token；一次封装，多次复用，无需重复编写长提示词；多个Skill可组合使用，构建复杂工作流。

可被截图传播的观点句： Skill就是把经验固化成AI能读懂的SOP，让AI在正确的时候做正确的事。

传统方式大概长这样：

3a57f484-b0a4-45f3-b5b7-6881aac94440

每个接口重复这套流程。业务变化时，全部返工。

用AI Skills的方式：

9f15fcd9-03f2-434a-be1d-d026fb17211e

本质区别在哪里？

传统方式，每次任务从零开始。Skills方式，把经验封装成可复用的能力单元。Skill定义“如何做API测试”的SOP，输入具体的API定义，AI按SOP自动完成整套流程。一个Skill写好后，可以在任何类似场景重复使用。

一个真实的参考案例是Chrome插件开发。开发者将“搜索图标→下载SVG→转换尺寸”的流程标准化后，用Skill-Creator打包成Skill。之后只需要说“帮我找beer图标”，AI就会自动执行整套流程。注意这里的关键词——“标准化流程”。Skills的本质就是把一个可标准化的任务流程封装成AI能理解并执行的能力包。

另一个值得关注的方向是Agent Skills在数据分析领域的应用。通过Skill封装SQL生成、执行查询、分析结果的完整链路，可以实现自然语言到数据洞察的自动化。

可被截图传播的观点句： AI时代，你的竞争力不取决于写代码多快，而取决于能否把经验固化成可复用的能力单元。

我的做法：先用传统方式跑通流程2-3次，找到不变的部分和可变的部分。不变的部分封装成Skill的核心逻辑，可变的部分设计成参数输入。

建议每次优化后提交Git进行版本管理，这个习惯会帮你省很多时间。

我现在的原则：一个Skill只做一件事，做深做透。比如“API测试”可以拆成“生成用例”“生成脚本”“执行验证”“生成报告”四个独立的Skill，组合使用。

之前尝试过一步到位让Skill-Creator生成完整Skill，效果不理想，容易出现流程冗余。拆分后可控性大幅提升。

我个人的实践：用文件夹按领域组织Skill，加上version标签和changelog。这样团队内可以共享和迭代，而不是每个人重新造轮子。

对测试团队来说，这个验证环节尤其重要。你的判断力才是不可替代的核心资产。

我的判断是：测试不会消失，但角色会彻底重构。

过去测试关注的是“功能对不对”。未来的测试需要关注三个层面：AI系统的行为是否符合预期（AI结果判断力）、多Agent协同是否正确（系统级理解力）、输出质量如何量化评估（数据与评估能力）。

测试正在从执行者变成质量决策者。

把这个逻辑延伸到整个软件工程领域，2026年的分水岭已经清晰浮现：第一层是人工完成任务，第二层是用AI辅助完成任务，第三层是设计AI完成任务的体系。

第一层效率最低，第二层效率高但不可控，第三层效率高且可控。

未来真正稀缺的，是第三层能力。

当生成能力变成基础设施，判断力、建模能力和系统设计能力，才是新的门槛。

👉 扫码进群，报名学习！

本文部分内容参考了霍格沃兹测试开发学社整理的相关技术资料，主要涉及软件测试、自动化测试、测试开发及 AI 测试等内容，侧重测试实践、工具应用与工程经验整理。

AI Skills插件开发避坑指南：从环境搭建到上线

相关推荐