AI Skills插件开发避坑指南:从环境搭建到上线

AI Skills插件开发避坑指南:从环境搭建到上线2026 年的技术圈 一个感受越来越强烈 测试工程师的焦虑感正在从个体蔓延到整个行业 前两天和一个做自动化测试的朋友聊 他说最近最怕的不是项目延期 而是 leader 突然说 这个用 AI 生成一下 用例自动生成了 脚本自动写了 甚至连 bug 定位都能靠模型推理了 他问我 那我们测什么 这个问题 最近被反复提起 信通院最新报告显示 2026 年已有 70 的企业测试用例由 AI 生成

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



2026年的技术圈,一个感受越来越强烈——测试工程师的焦虑感正在从个体蔓延到整个行业。

前两天和一个做自动化测试的朋友聊,他说最近最怕的不是项目延期,而是leader突然说“这个用AI生成一下”。用例自动生成了,脚本自动写了,甚至连bug定位都能靠模型推理了。他问我:那我们测什么?

这个问题,最近被反复提起。

信通院最新报告显示,2026年已有70%的企业测试用例由AI生成。效率提升5-10倍、成本下降60%+,不再是愿景,而是企业标配。Claude Code和Codex已经具备自主生成代码、自动修复、连续迭代的能力,工程执行层正在被快速压缩。

面对这个变化,有人选择焦虑,有人开始探索新路。

过去三个月,我帮团队搭建了一套基于AI Skills的测试辅助体系。从环境配置踩坑到上线落地,踩了不少坑,也积累了一些经验。这篇文章把我踩过的坑和总结的方法论整理出来,希望对正在探索这个方向的你有所帮助。

SWE-bench Verified榜单上,顶级AI编程工具解决真实GitHub问题的比例已从2023年的48.5%跃升至78.8%。这意味着AI独立完成真实开发任务的能力,两年翻了近一倍。

工具层面的竞争更是白热化。

Claude Code以77.4%的SWE-bench得分领跑,擅长终端原生工作流和多文件深度推理。Cursor以约76.8%的得分紧随其后,主打IDE原生体验和多智能体并行。Windsurf和GitHub Copilot位居第二梯队。开源新秀OpenClaw则以灵活接入多模型和成本可控的优势,吸引了大量开发者关注。

最值得关注的是Claude Code最近上线的Computer Use功能——AI可以自己启动应用、复现bug、修复代码、验证结果,全程不离终端。官方演示中,一个指令下去,AI自己跑完了“启动应用→复现bug→修复→测试”的完整闭环。

这对测试行业意味着什么?

测试用例生成、自动化脚本编写、Bug定位这三块执行层工作,正在被快速接管。

面对这个现实,有两种反应。一种是焦虑“AI会不会取代我”。另一种是追问“那我该做什么”。

我选择后者。

腾讯云在2026年的技术分享中,将企业AI Coding实践分为三个阶段:AI辅助开发(AI解决单点问题,人控制流程)、AI驱动开发(AI接管单点环节并闭环完成任务,人转为监督者)、AI原生开发(AI Agent Teams端到端闭环,人只验收结果)。

2026年,我们正在从第一阶段向第二阶段过渡。

这个转变的核心变化是什么?能力重心在迁移。

过去的能力重心是:掌握语言、框架、工具链,能写出可运行的代码。新的能力重心是:理解业务流程、抽象问题、设计规则体系、判断AI产出质量、构建可复用的能力封装。

可被截图传播的观点句: 当AI能写完整个项目时,决定输出去留的仍然是人的判断力。

测试工程师的核心价值正在从“写用例”跃升为“设计生成系统”。区别在于:前者关注“怎么做”,后者关注“为什么这么做”和“怎么保证一直做对”。

传统方式下,要让AI完成一个专业任务,你需要把完整的指令、工具使用说明、背景知识全部写进提示词。结果是:token消耗巨大,每次重复输入,不同场景无法复用。

2025年10月,Anthropic发布Claude Skills。两个月后,Agent Skills作为开放标准被发布,OpenAI、GitHub、VS Code、Cursor均已跟进。本质上,Skills是“通用Agent的扩展包”——通过加载不同Skill包,Agent可以具备特定领域的专业能力。

核心架构采用三层渐进式披露(Progressive Disclosure) 设计:

3826de1b-3060-47da-9301-4212218f5a45

第一层是元数据。每个Skill的SKILL.md开头有YAML格式的名称和描述,Agent启动时预加载到系统提示中,用于判断该Skill是否与当前任务相关。

第二层是SKILL.md主体。当Agent判断某个Skill与任务相关时,会加载完整的Markdown文档作为上下文,包含详细指令、注意事项、示例等。

第三层是附加文件和脚本。复杂场景下,Skill文件夹可包含脚本代码或额外说明文档,仅在需要时加载或执行。

这个设计解决了传统方式的三个痛点:按需加载,无关任务只消耗几十个token;一次封装,多次复用,无需重复编写长提示词;多个Skill可组合使用,构建复杂工作流。

可被截图传播的观点句: Skill就是把经验固化成AI能读懂的SOP,让AI在正确的时候做正确的事。

传统方式大概长这样:

3a57f484-b0a4-45f3-b5b7-6881aac94440

每个接口重复这套流程。业务变化时,全部返工。

用AI Skills的方式:

9f15fcd9-03f2-434a-be1d-d026fb17211e

本质区别在哪里?

传统方式,每次任务从零开始。Skills方式,把经验封装成可复用的能力单元。Skill定义“如何做API测试”的SOP,输入具体的API定义,AI按SOP自动完成整套流程。一个Skill写好后,可以在任何类似场景重复使用。

一个真实的参考案例是Chrome插件开发。开发者将“搜索图标→下载SVG→转换尺寸”的流程标准化后,用Skill-Creator打包成Skill。之后只需要说“帮我找beer图标”,AI就会自动执行整套流程。注意这里的关键词——“标准化流程”。Skills的本质就是把一个可标准化的任务流程封装成AI能理解并执行的能力包。

另一个值得关注的方向是Agent Skills在数据分析领域的应用。通过Skill封装SQL生成、执行查询、分析结果的完整链路,可以实现自然语言到数据洞察的自动化。

image

可被截图传播的观点句: AI时代,你的竞争力不取决于写代码多快,而取决于能否把经验固化成可复用的能力单元。

我的做法:先用传统方式跑通流程2-3次,找到不变的部分和可变的部分。不变的部分封装成Skill的核心逻辑,可变的部分设计成参数输入。

建议每次优化后提交Git进行版本管理,这个习惯会帮你省很多时间。

我现在的原则:一个Skill只做一件事,做深做透。比如“API测试”可以拆成“生成用例”“生成脚本”“执行验证”“生成报告”四个独立的Skill,组合使用。

之前尝试过一步到位让Skill-Creator生成完整Skill,效果不理想,容易出现流程冗余。拆分后可控性大幅提升。

我个人的实践:用文件夹按领域组织Skill,加上version标签和changelog。这样团队内可以共享和迭代,而不是每个人重新造轮子。

对测试团队来说,这个验证环节尤其重要。你的判断力才是不可替代的核心资产。

我的判断是:测试不会消失,但角色会彻底重构。

过去测试关注的是“功能对不对”。未来的测试需要关注三个层面:AI系统的行为是否符合预期(AI结果判断力)、多Agent协同是否正确(系统级理解力)、输出质量如何量化评估(数据与评估能力)。

测试正在从执行者变成质量决策者。

把这个逻辑延伸到整个软件工程领域,2026年的分水岭已经清晰浮现:第一层是人工完成任务,第二层是用AI辅助完成任务,第三层是设计AI完成任务的体系。

第一层效率最低,第二层效率高但不可控,第三层效率高且可控。

未来真正稀缺的,是第三层能力。

当生成能力变成基础设施,判断力、建模能力和系统设计能力,才是新的门槛。

👉 扫码进群,报名学习!

image

本文部分内容参考了霍格沃兹测试开发学社整理的相关技术资料,主要涉及软件测试、自动化测试、测试开发及 AI 测试等内容,侧重测试实践、工具应用与工程经验整理。

小讯
上一篇 2026-04-27 17:30
下一篇 2026-04-27 17:28

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/279422.html