Hugging Face Skills 完全指南：让 AI 编程助手掌握机器学习技能

Hugging Face Skills 是一套标准化的 AI/ML 任务定义包，它让 AI 编程助手（如 Claude Code、OpenAI Codex、Gemini CLI、Cursor）具备完成机器学习工作流的能力。通过安装 Skills，你可以用自然语言指示 AI 助手完成模型训练、数据集管理、应用部署等原本需要深入专业知识的任务。

什么是 Hugging Face Skills？

在传统的 AI 编程助手中，你可能需要手动编写训练脚本、查阅 API 文档、配置基础设施。Hugging Face Skills 改变了这一切——它将这些专业知识打包成标准化的”技能包”，让 AI 助手能够像一位经验丰富的 ML 工程师一样工作。

核心设计理念

每个 Skill 都是一个自包含的文件夹，包含：

SKILL.md：带有 YAML 前置元数据的指令文件，定义技能名称、描述和详细操作指南
辅助脚本：Python 或其他语言的工具脚本，供 AI 助手在执行任务时调用
参考资料：模板、示例和文档链接

当你在对话中提到某个技能相关的任务时，AI 助手会自动加载对应的 SKILL.md 文件，获取操作指南和工具脚本，然后按照指南完成任务。

跨平台兼容

Hugging Face Skills 采用开放的 Agent Skills 规范，兼容所有主流 AI 编程助手：

平台	术语	安装方式
Claude Code	Plugin / Skill	通过 Plugin Marketplace 注册安装
OpenAI Codex	Agent Skill	复制到 `.agents/skills` 目录
Gemini CLI	Extension	通过 `gemini extensions install` 安装
Cursor	Plugin	通过 `.cursor-plugin/plugin.json` 配置

完整技能列表

Hugging Face Skills 目前提供 13 个生产级技能，覆盖 ML 工作流的各个环节：

模型训练与微调

技能	说明
`hugging-face-model-trainer`	使用 TRL 在 HF Jobs 云 GPU 上训练/微调 LLM，支持 SFT、DPO、GRPO 和奖励模型训练
`hugging-face-vision-trainer`	微调视觉模型，支持目标检测（D-FINE、RT-DETR）、图像分类（100+ timm 架构）和分割（SAM/SAM2）

数据集管理

技能	说明
`hugging-face-datasets`	创建和管理 Hub 数据集，支持多格式配置和 SQL 数据转换
`hugging-face-dataset-viewer`	通过 REST API 查询任意数据集，零 Python 依赖

基础设施与运维

技能	说明
`hugging-face-jobs`	在 HF 托管基础设施上运行 Python 工作负载：批量推理、数据处理、ML 实验
`hugging-face-trackio`	使用 Trackio 实时监控训练指标，支持仪表盘和告警
`hf-cli`	通过命令行管理 Hub 仓库：下载、上传、认证、缓存管理

应用开发

技能	说明
`huggingface-gradio`	使用 Gradio 构建 Python Web UI 和交互式 ML 演示
`transformers-js`	在 JavaScript/TypeScript 中直接运行 ML 模型，支持浏览器和 Node.js

研究与评估

技能	说明
`hugging-face-evaluation`	管理模型评估结果，导入外部 API 评分
`hugging-face-paper-publisher`	将研究论文发布到 Hub
`hugging-face-paper-pages`	访问论文元数据和内容
`hugging-face-tool-builder`	构建可复用的 Hub API 自动化脚本

安装与配置

Claude Code 安装

Claude Code 使用 Plugin Marketplace 机制管理 Skills。

第一步：注册 Marketplace

/plugin marketplace add huggingface/skills

第二步：安装所需技能

# 安装单个技能
/plugin install hugging-face-model-trainer@huggingface/skills

# 安装多个常用技能
/plugin install huggingface-gradio@huggingface/skills
/plugin install hugging-face-datasets@huggingface/skills
/plugin install hugging-face-jobs@huggingface/skills

安装完成后，Claude Code 会在相关对话中自动加载对应技能。

OpenAI Codex 安装

Codex 遵循 Agent Skills 标准，自动发现 .agents/skills 目录下的技能：

# 克隆仓库
git clone https://github.com/huggingface/skills.git

# 复制或软链接技能到 Codex 技能目录
cp -r skills/hugging-face-model-trainer .agents/skills/
# 或使用软链接
ln -s $(pwd)/skills/hugging-face-model-trainer .agents/skills/

Gemini CLI 安装

# 从 GitHub 直接安装
gemini extensions install https://github.com/huggingface/skills.git --consent

Cursor 安装

Cursor 使用仓库中预配置的清单文件（.cursor-plugin/plugin.json 和 .mcp.json），按 Cursor 官方文档将仓库添加为插件源即可。

核心技能详解

模型训练器（Model Trainer）

这是 Skills 中最强大的技能之一，让你通过自然语言在云 GPU 上训练和微调大语言模型。

支持的训练方法

SFT（Supervised Fine-Tuning）：监督微调，使用指令-回答对训练模型
DPO（Direct Preference Optimization）：直接偏好优化，使用 chosen/rejected 数据对齐模型
GRPO（Group Relative Policy Optimization）：在线强化学习训练
Reward Modeling：训练奖励模型

硬件选择参考

模型规模	推荐硬件	参考费用
< 1B 参数	T4 Small	~$0.75/小时
1-3B 参数	T4 Medium / L4x1	~$1.50-2.50/小时
3-7B 参数	A10G Small/Large	~$3.50-5.00/小时
7-13B 参数	A10G Large / A100 Large	~$5-10/小时
13B+ 参数	A100 Large / A10G Largex2	~$10-20/小时

使用 LoRA/PEFT 可以显著降低大模型的显存需求。

使用示例

在 Claude Code 中，你可以这样使用模型训练器：

用 HF 模型训练器技能，使用 SFT 方法在 A10G 上微调 Qwen2.5-7B，
数据集用 my-org/my-dataset，训练 3 个 epoch，启用 LoRA。

AI 助手会自动完成以下工作：

验证你的 HF 账户权限和 Token
检查数据集格式是否兼容 SFT 训练
生成 UV 脚本（PEP 723 格式），内联所有依赖
配置 Trackio 实时监控
通过 hf_jobs() 提交训练任务
返回任务 ID 和监控链接

关键注意事项

环境是临时的：必须配置 push_to_hub=True 和 hub_model_id，否则训练结果会丢失
超时设置：默认 30 分钟不够用，建议设置为预估时间的 1.2-1.3 倍
数据集验证：在提交 GPU 任务前，先在 CPU 上验证数据集格式，避免浪费计算资源
OOM 处理：减小 batch size、增加梯度累积步数、启用梯度检查点或升级硬件

视觉模型训练器（Vision Trainer）

专注于计算机视觉任务的云端微调。

支持的任务类型

目标检测：

模型架构：D-FINE（10.4M-63.5M 参数）、RT-DETR v2、DETR、YOLOS
自动 COCO 格式转换和类别映射

图像分类：

100+ timm 架构：MobileNetV3、MobileViT、ResNet、ViT/DINOv3 等
支持任意 Transformers 分类器

图像分割：

SAM 和 SAM2 模型
支持实例分割和图像抠图
DiceCE 损失优化

使用示例

用视觉训练器技能，在我的自定义数据集上微调 D-FINE Small 做目标检测，
数据集在 my-org/custom-detection-dataset。

Gradio 技能

让 AI 助手快速构建 Python Web UI 和交互式 ML 演示。

三种构建模式

Interface（高层级）：最简单的方式，将一个函数包装为带输入/输出组件的 Web 界面。

import gradio as gr

def greet(name):
    return f"Hello {name}!"

demo = gr.Interface(fn=greet, inputs="text", outputs="text")
demo.launch()

Blocks（低层级）：灵活的布局系统，支持复杂的事件绑定和自定义 UI。

import gradio as gr

with gr.Blocks() as demo:
    name = gr.Textbox(label="Name")
    output = gr.Textbox(label="Greeting")
    btn = gr.Button("Greet")
    btn.click(fn=lambda n: f"Hello {n}!", inputs=name, outputs=output)

demo.launch()

ChatInterface（聊天界面）：专为聊天机器人设计的高层级封装。

使用示例

用 Gradio 技能，创建一个图像分类演示应用，
使用 ResNet50 模型，支持上传图片并显示 Top-5 预测结果。

Transformers.js 技能

在 JavaScript/TypeScript 环境中直接运行 ML 模型，无需后端服务器。

核心特点

支持 NLP（文本分类、翻译、摘要）、计算机视觉（图像分类、目标检测）、音频处理（语音识别）
兼容 Node.js 18+ 和现代浏览器
实验性 WebGPU 加速
支持多种量化级别（fp32、fp16、q8、q4）

使用示例

用 Transformers.js 技能，创建一个 Node.js 脚本，
使用 sentiment-analysis pipeline 分析用户评论的情感倾向。

数据集管理技能

核心能力

数据集创建：初始化新仓库，配置系统提示和数据格式
SQL 查询：通过 DuckDB SQL 查询任意 HF 数据集，支持 hf:// 协议
多格式支持：对话、文本分类、问答、表格等多种数据类型
增量编辑：无需下载整个数据集即可添加行

使用示例

用数据集技能，创建一个 SFT 格式的对话数据集，
包含中文问答对，发布到 my-org/chinese-qa-dataset。

实验监控（Trackio）

三大接口

Python API（日志）：通过 trackio.init()、trackio.log()、trackio.finish() 记录训练指标
Python API（告警）：使用 trackio.alert() 插入诊断告警，支持 INFO、WARN、ERROR 三个级别
CLI（查询）：通过命令行查询实验数据，支持 JSON 输出

自主 Agent 集成

Trackio 的告警机制是 AI Agent 自主迭代 ML 实验的关键：

告警会输出到终端，AI Agent 可以自动检测训练异常（如 loss 发散、梯度消失）
Agent 可以通过 CLI 的 --json 和 --since 参数轮询告警
基于告警自动调整超参数，实现无人值守的训练优化

实战工作流示例

从零开始训练一个聊天模型

以下是一个完整的工作流示例，展示如何组合多个 Skills 完成端到端的 ML 任务：

第一步：准备数据集

用数据集技能，查看 HuggingFaceFW/fineweb-edu 的数据结构和样本，
然后创建一个 SFT 格式的子集用于训练。

第二步：估算成本

用模型训练器技能，估算在 A10G Large 上微调 Qwen2.5-7B 的成本，
数据集约 10000 条，训练 3 个 epoch。

第三步：提交训练任务

用模型训练器技能，使用 SFT 方法微调 Qwen2.5-7B，
启用 LoRA（rank=16），配置 Trackio 监控，
硬件选择 A10G Large，超时设置 3 小时。

第四步：监控训练

查看刚才提交的训练任务状态，检查 Trackio 仪表盘上的 loss 曲线。

第五步：构建演示应用

用 Gradio 技能，为训练好的模型创建一个聊天演示界面，
部署为 Hugging Face Space。

构建一个目标检测应用

第一步：准备数据

用数据集查看器技能，检查 my-org/traffic-signs 数据集的标注格式和类别分布。

第二步：训练模型

用视觉训练器技能，使用 D-FINE Small 在 traffic-signs 数据集上训练目标检测模型，
硬件选择 A10G Small，训练 20 个 epoch。

第三步：创建演示

用 Gradio 技能，创建一个目标检测演示：用户上传图片，
模型标注出所有检测到的交通标志，显示类别和置信度。

SKILL.md 结构解析

理解 SKILL.md 的结构有助于你创建自定义技能或更好地使用现有技能。

基本结构

---
name: my-custom-skill
description: 这个技能用于...当用户需要...时触发
---

# 技能标题

## 关键指令
- 必须遵守的规则

## 使用方法
- 具体操作步骤

## 参考脚本
- scripts/helper.py：用于...

设计要点

name：技能的唯一标识符，用于安装和引用
description：关键字段，AI 助手通过描述判断何时激活这个技能。好的描述应该涵盖所有触发场景
关键指令：强制 AI 助手遵守的规则，如”必须通过 MCP 工具提交任务”
脚本引用：技能可以包含辅助脚本，AI 助手会根据指令调用这些脚本

创建自定义技能

你可以为自己的工作流创建自定义技能。

步骤

复制模板：从现有技能文件夹复制并重命名

cp -r skills/huggingface-gradio skills/my-custom-skill

编写 SKILL.md：更新名称、描述和操作指南

---
name: my-custom-skill
description: 这个技能用于在本地 GPU 上运行推理测试...
---

添加辅助脚本：如果需要，创建 AI 助手可以调用的 Python 脚本
注册到 Marketplace：在 .claude-plugin/marketplace.json 中添加条目
验证发布：运行 ./scripts/publish.sh 验证元数据一致性

最佳实践

描述要精确：description 决定了 AI 何时激活这个技能，覆盖所有相关触发词
指令要明确：使用”必须”、“始终”、“永不”等强制性语言
包含错误处理：告诉 AI 助手在遇到常见错误时如何应对
提供示例：包含真实的使用场景和预期输出

与 MCP Server 的关系

Hugging Face Skills 与 Hugging Face MCP Server 是互补的：

维度	Skills	MCP Server
定位	操作指南和工作流编排	工具接口和 API 调用
作用	告诉 AI 怎么做	提供 AI 做事的工具
内容	Markdown 指令 + 脚本	API endpoint 定义
示例	”训练模型时必须配置 push_to_hub”	`hf_jobs()` 工具调用

在实际使用中，Skills 提供操作流程和最佳实践，MCP Server 提供执行操作的具体工具。两者配合使用效果最佳。

常见问题

Skills 是免费的吗？

Skills 本身是开源免费的（Apache 2.0 许可证）。但某些技能依赖的 Hugging Face 基础设施（如 Jobs、Inference Endpoints）需要付费计划（Pro、Team 或 Enterprise）。

需要本地 GPU 吗？

大多数训练类技能通过 Hugging Face Jobs 在云端 GPU 上运行，不需要本地 GPU。Transformers.js 技能可以在 CPU 上运行推理。

如何查看已安装的技能？

在 Claude Code 中使用 /plugin list 命令查看已安装的技能列表。

训练结果会丢失吗？

HF Jobs 的执行环境是临时的。Skills 中的指令会强制 AI 助手配置 push_to_hub=True，将模型推送到 Hugging Face Hub 持久保存。如果没有正确配置，训练结果确实会在任务结束后丢失。

可以离线使用吗？

Skills 的安装和大多数操作需要网络连接。Gradio 应用在启动后可以在本地访问，Transformers.js 在下载模型后可以离线推理。

总结

Hugging Face Skills 将专业的 ML 知识封装为标准化的技能包，让 AI 编程助手能够胜任从数据准备到模型部署的完整工作流。它的核心价值在于：

降低门槛：不需要深入了解每个工具的 API，用自然语言描述需求即可
减少错误：Skills 中内置了最佳实践和错误处理指南，避免常见陷阱
跨平台通用：同一套技能在 Claude Code、Codex、Gemini CLI 等平台上通用
开放可扩展：基于开放规范，任何人都可以创建和分享自定义技能

如果你正在使用 AI 编程助手进行 ML 开发，强烈建议安装 Hugging Face Skills，让你的 AI 助手真正成为一名 ML 工程师。

Hugging Face Skills 完全指南：让 AI 编程助手掌握机器学习技能

目录

什么是 Hugging Face Skills？

核心设计理念

跨平台兼容

完整技能列表

模型训练与微调

数据集管理

基础设施与运维

应用开发

研究与评估

安装与配置

Claude Code 安装

OpenAI Codex 安装

Gemini CLI 安装

Cursor 安装

核心技能详解

模型训练器（Model Trainer）

支持的训练方法

硬件选择参考

使用示例

关键注意事项

视觉模型训练器（Vision Trainer）

支持的任务类型

使用示例

Gradio 技能

三种构建模式

使用示例

Transformers.js 技能

核心特点

使用示例

数据集管理技能

核心能力

使用示例

实验监控（Trackio）

三大接口

自主 Agent 集成

实战工作流示例

从零开始训练一个聊天模型

构建一个目标检测应用

SKILL.md 结构解析

基本结构

设计要点

创建自定义技能

步骤

最佳实践

与 MCP Server 的关系

常见问题

Skills 是免费的吗？

需要本地 GPU 吗？

如何查看已安装的技能？

训练结果会丢失吗？

可以离线使用吗？

总结

参考资源