把 AI 训成 S 级员工：高效训练 Skills 的 4 个真实翻车教训

原文：《让AI变成Super员工的秘密：高效训练Skills》，作者 solonnliu，来源：腾讯技术工程公众号

不是 AI 不够强，而是大多数 AI 还没有被你训练成”懂业务、会自检、能稳定交付”的员工。

核心结论先行

把 AI 训成 S 级员工，作者最信这 4 件事：

AI 的上下文一定有限。任务一复杂，它就会健忘。
Skill 里不能只写”想要什么”，还要写”具体怎么做”。
光写清楚还不够。 上下文一撑爆，AI 会自动忽略细节，所以一定要配可校验、可自测的 checklist 和门禁规则。
Skill 不是一次写成的。 最有效的方法永远是：跑一遍、复盘一次、让 AI 分析原因并自动改 Skill，再跑一遍，循环迭代。

一句话总结：

Skill 的作用，不是让 AI 更聪明，而是让 AI 在你的业务里更可靠。

一、为什么 AI 很强，还是当不了 S 级员工？

大模型拥有的是通用能力，不是岗位能力。

通用能力	岗位能力
能不能理解任务	你这个业务里什么才算真正完成
能不能大致做出来	哪些步骤绝对不能跳
能不能输出”像样的结果”	哪些细节最容易被漏掉
	哪些错误过去已经真实发生过
	最终交付物应该长什么样，谁来消费，怎么验收

AI 特别像一个非常聪明的新同学：它能读懂你说的话，但它不知道你们团队的”行规”、“教训”和”交付标准”。

Skills 做的事，就是把这些原本散落在你脑子里、团队经验里、事故教训里的内容，变成 AI 可以执行的岗位 SOP。

模型提供通用智力，Skill 提供业务操作系统。

二、训练 Skill 的前提：承认”AI 会失忆”

这是整个训练体系的底层假设，也是最容易被忽视的一点。

现实是：

任务一长，前面的约束会被稀释
阶段一多，后面的细节会被忽略
输出一复杂，AI 会主动压缩结构
上下文接近极限时，模型会优先保”看起来完成”，而不是保”严格完整”

所以，复杂任务不是”写清楚一次”就结束了，而是必须被设计成”每一步都能自我校验”的流程。

Skill 训练闭环

真实任务执行
    ↓
发现问题/翻车
    ↓
把错误写成规则，把经验写成 SOP，把 SOP 写成 AI 自己也能检查的门禁
    ↓
更新 Skill
    ↓
再次执行验证
    ↓（循环）

图里最关键的不是”再次执行”，而是中间那一步：把错误写成规则，把经验写成 SOP，把 SOP 写成 AI 自己也能检查的门禁。

三、4 个真实翻车教训（web-testing Skill 实战复盘）

作者以打造一个 web-testing Skill 为案例，目标是：给它任意一个网站链接，它都能深入完整地探索每一层页面，并输出完整测试报告（含总评分、站点地图、UI/UX 审查、CURD 全链路测试、截图等）。

🚧 第一坑：AI 不是不会点页面，而是不知道”哪些地方必须点”

问题复现：

AI 在页面发现阶段漏掉了一个隐藏入口：/admin/product/deployment/{deploymentId}

这个页面藏在：版本详情页的某个 Tab → Tab 内容区的表格 → 一个蓝色链接后面。

AI 的策略是：

识别到了 Tab ✓
知道有部署方案这个区域 ✓
也看到了蓝色链接 ✓
但没有把它当成”必须递归验证的新页面入口” ✗

结果：它不是完全没探索，而是探索到一半，靠主观判断停下来了。

根因分析：

Web 测试的难点，很多时候不在”有没有能力点击”，而在”知不知道哪些交互必须被系统性穷举”。

修复方案：

把”仔细”拆成可执行动作：

原来（模糊要求）	修复后（可执行 SOP）
请认真检查页面，不要遗漏入口	页面必须滚动到底再结束扫描
	Tab 切换后必须重新扫描链接
	展开行里的链接必须实际点击验证
	不能靠颜色或视觉主观判断链接是否重要
	阶段结束前必须做递归终止自检

Skill 里不能写：

请认真检查页面，不要遗漏入口。

而要写成：

当页面存在 Tab、展开行、子表格、蓝色链接时，必须执行 DOM 枚举与逐链接验证；
只要还存在未验证链接，就禁止结束阶段 1。

核心原则：不要写原则，要写触发条件 + 必做动作 + 结束门槛。

效果： 优化前只识别到 2 层页面；优化后识别到 4 层页面，并标注了页面类型（只读/可 CURD）。

AI 不是天然会”穷举”的。穷举能力，很多时候要靠 Skill 强行教出来。

🚧 第二坑：AI 会优先做”最像成果的那个”，然后漏掉其他交付物

问题复现：

阶段 4 要求输出三个文件：sitemap.md、test-report.md、test-report.html

结果 AI 只生成了 HTML。

根因分析：

HTML 最像”最终成果”——最显眼、最复杂，最容易吸走模型的注意力和上下文预算。AI 的”心理活动”：

先把最复杂的做了
做着做着上下文变紧张了
后面两个相对”朴素”的产物被自动忽略

不是故意偷懒，而是本能地优先做那个最有存在感的东西。

修复方案：

直接把顺序写死，并配上门禁：

1. 先生成 sitemap.md → 立刻验证文件存在且大小 > 0
2. 再生成 test-report.md → 立刻验证文件存在且大小 > 0
3. 最后生成 test-report.html → 立刻验证文件存在且大小 > 0
4. 阶段结束做阻断式完整性检查，不通过就不能宣布完成

复杂任务里，顺序本身就是质量控制。

🚧 第三坑：不要假设 AI 懂工程约束，它经常会选”看起来最省事”的方案

问题复现：

AI 为了生成带截图的 HTML 报告，走了一条”看起来聪明”的捷径：

用 python3 -c 直接拼长脚本
把截图数据做成 base64
一起塞进命令行

结果：Shell 命令长度上限被打爆，整条命令失败。

根因分析：

模型并不天然具备你当前执行环境里的工程常识。

它可能”知道有这种写法”，但不知道这在你的环境里是否稳定、是否可维护、是否会炸。

修复方案：

明确写入工程约束：

禁止用 python3 -c 生成长报告
禁止用超长 echo "..." > file 硬写大文件
优先直接写文件，或者先写脚本文件再执行
HTML 报告禁止 base64 内嵌截图，统一改成本地路径引用

Skill 不只是业务手册，它还得是 AI 的”工程生存指南”。

🚧 第四坑：最危险的不是”没生成”，而是”看起来生成了”

问题复现：

表面上报告是有的，甚至有问题列表、CRUD 结果、结论。但一对模板才发现：真正关键的”逐页面详细模块”被悄悄压缩掉了。

少了什么：

每个页面独立模块
UI/UX 审查
功能测试明细
本页问题汇总
HTML 的 page-card 结构

根因分析：

前面测试过程已经消耗了大量上下文，到了最后生成报告时，AI 自动进入”节约模式”，开始压缩结构。

这类错误最危险，因为它不是”完全没有”，而是”看上去像有”——最容易骗过第一次验收。

修复方案：

补上结构门禁（示例 checklist）：

报告结构完整性 checklist：
- [ ] 页面模块数 = sitemap 页面数
- [ ] 每页都有截图
- [ ] 每页都有 UI/UX 审查
- [ ] 每页都有功能测试结果表
- [ ] 每页都有本页问题汇总
- [ ] HTML 中 page-card 数量 = 页面数
- [ ] 问题汇总表存在
- [ ] 修复计划表存在
- [ ] 数据清理记录存在

关键不是 checklist 写得多漂亮，而是它要变成门禁：

上一项没过，下一项不能开始；最终结构没过，整个阶段不能宣告完成。

复杂任务如果没有门禁，AI 很容易从”完整交付”滑向”看起来完成”。

四、一套可复用的 Skill 训练方法论

方法 1：先让 AI 在真实任务里跑起来，再谈训练

别一上来就闭门写一大坨 Skill。先让 AI 真做 3～5 次真实任务，重点不是看它多惊艳，而是看它怎么错：

漏了什么
跳了哪一步
哪些地方看起来做了，其实没做
哪些错误会重复出现

没有真实翻车，就很难写出真的有用的 Skill。

方法 2：Skill 里不止要写”做什么”，还要写”怎么做”

坏写法（提要求）	好写法（写 SOP）
请仔细检查页面	当页面存在 Tab/展开行/子表格时，切换后必须重新枚举链接
请保证报告完整	每生成一个交付物，立刻验证文件存在且大小大于 0
请在结束前自查	页面模块数必须等于站点地图页面数，否则报告不合格

前者是在提要求，后者是在写 SOP。而 Skill 要的，恰恰是 SOP。

方法 3：只写清楚还不够，一定要给 AI 配 checklist 和门禁

上下文一长，AI 会自动：

压缩不那么显眼的步骤
忽略长尾细节
优先保住”看起来像成果”的部分
把”差不多完成”当成”已经完成”

所以 Skill 里必须有两层东西：

checklist：告诉 AI 要检查什么
门禁：告诉 AI 没检查过就不能往下走

这一步特别像带新人：你不能只告诉他”注意质量”。你得告诉他：

先做什么
做到什么算完成
怎么验收
不通过怎么办

方法 4：效果不好时，让 AI 参与复盘并自动改 Skill

低效的调优方式：

跑一遍 → 觉得不满意 → 自己手改 Prompt → 再跑一遍

高效的调优方式：

跑一遍 → 指出不理想的地方 → 让 AI 分析根因 → 让 AI 提出修改 Skill 的方案
→ 让 AI 自动完善 Skill → 再跑一遍验证 → 重复闭环

AI 不只是执行者，还应该成为 Skill 的共同调参者。

推荐使用这类迭代指令：

请基于本次执行结果，对当前 Skill 做一次复盘：
1. 哪些输出没有达到预期？
2. 这些问题分别属于：页面发现、交付完整性、工程约束、结构完整性、消费场景适配中的哪一类？
3. 根因是什么？是规则缺失、规则不明确、没有门禁，还是上下文过长导致细节被忽略？
4. 请给出应补充到 Skill 中的具体规则，要求包含：触发条件、必做动作、自检方式、不通过后果。
5. 直接输出修改后的 Skill 片段，并说明这次修改预期解决什么问题。

Skill 一旦进入这个循环，就会越来越像一个真正会吸收经验的业务系统，而不只是一个长 Prompt。

五、web-testing Skill 的文件结构

web-testing/
├── SKILL.md                          # 主控文件：触发条件、执行流程、门禁规则、失败模式
└── references/
    ├── checklist-template.md         # 执行过程的"进度控制器"和"阶段门禁表"
    ├── report-template.md            # 最终 Markdown/HTML 报告的输出契约
    └── ui-ux-checklist.md            # UI/UX 审查时的详细评分参考标准

通过主 SKILL.md + checklist 的形式，确保了 AI 在执行过程中不健忘，按照期望交付成果。

六、训练 Skill 的本质：抬高下限，而非上限

很多人讨论 AI 时关注上限：模型够不够聪明、推理强不强、会不会写代码。

但真到了业务里，决定体验的往往不是上限，而是下限。

你最怕的不是 AI 偶尔不够惊艳，最怕的是它：

这次做得很好，下次突然漏半页
这次三份文件都有，下次只交一份
这次结构完整，下次悄悄缩水

Skill 真正解决的是：让 AI 的交付质量从”靠状态”变成”靠机制”。

训练 Skill，本质上不是增强 AI 的天赋，而是在建立 AI 的职业素养。

总结

训练 Skill 的完整心法：

1. 先跑，不要先写
   └── 让 AI 真做任务，从翻车里找规律

2. 写 SOP，不要写要求
   └── 触发条件 + 必做动作 + 结束门槛

3. 加门禁，不要靠自觉
   └── checklist + 阶段门禁 = 结构质量保障

4. 让 AI 参与复盘，自动迭代 Skill
   └── AI 是执行者，也是调参者

最后一句话：

要让 AI 先去干活，允许它犯错，把错复盘出来，把经验写回 Skill，然后再让它继续干。反复几轮之后，它就会慢慢从”能干活”，进化成”能把活干好”。而这，才是 AI 真正变成 S 级员工的开始。

把 AI 训成 S 级员工：高效训练 Skills 的 4 个真实翻车教训

目录

核心结论先行

一、为什么 AI 很强，还是当不了 S 级员工？

二、训练 Skill 的前提：承认”AI 会失忆”

Skill 训练闭环

三、4 个真实翻车教训（web-testing Skill 实战复盘）

🚧 第一坑：AI 不是不会点页面，而是不知道”哪些地方必须点”

🚧 第二坑：AI 会优先做”最像成果的那个”，然后漏掉其他交付物

🚧 第三坑：不要假设 AI 懂工程约束，它经常会选”看起来最省事”的方案

🚧 第四坑：最危险的不是”没生成”，而是”看起来生成了”

四、一套可复用的 Skill 训练方法论

方法 1：先让 AI 在真实任务里跑起来，再谈训练

方法 2：Skill 里不止要写”做什么”，还要写”怎么做”

方法 3：只写清楚还不够，一定要给 AI 配 checklist 和门禁

方法 4：效果不好时，让 AI 参与复盘并自动改 Skill

五、web-testing Skill 的文件结构

六、训练 Skill 的本质：抬高下限，而非上限

总结