MetaSKILL 与 SKILL:多视角深度综述
摘要
2025 年 10 月,Anthropic 在 Claude Code 中引入 Agent Skills 概念,以 SKILL.md 为载体的模块化能力包迅速成为 AI agent 生态的基础设施。截至 2026 年 2 月,公开 Skill 数量已突破 28 万个 [2],被 20+ 平台采纳 [8]。与此同时,MetaSKILL——即关于 Skill 的 Skill——已发展出三个层次的含义:Skill 的生成(如 Anthropic 的 skill-creator [15])、Skill 的编排(如 AgentSkillOS 的 DAG 编排 [2])、以及 OpenClaw.NET 中精确定义的生产级多步 DAG 工作流 [18][19][20]——将多个 Skill 组合为依赖感知、可暂停、可降级、可审计的执行计划。本综述从定义、架构、安全、生态、学术与工程六个角度,对 SKILL 与 MetaSKILL 的现状与未来做系统性梳理。核心争议集中在三个问题上:SKILL 是否真正带来了可量化的能力提升、自生成 Skill 能否替代人工创作、以及如何在生态爆炸式增长中守住安全底线。
目录
1 定义与边界:什么是 SKILL,什么是 MetaSKILL
1.1 SKILL:AI Agent 的模块化能力单元
Agent Skill 是一种轻量级、开放格式的 AI agent 能力扩展机制 [8]。它的物理形态是一个包含 SKILL.md 的目录:
- YAML 前置元数据定义
name、description、triggers等字段,用于 agent 的自动发现 [1][9]; - Markdown 指令体描述何时以及如何使用工具、执行何种工作流;
- 可选资源包括脚本、模板、参考数据 [9]。
Skill 与 Tool 有本质区别:Tool 是单一函数调用,Skill 是结构化的多文件能力包,封装了工作流指令、可执行脚本与领域知识参考 [16]。Tool 是"锤子",Skill 是"装修手册"。
1.2 MetaSKILL:三个层次的精确定义
"MetaSKILL"在实践与学术中已形成三个清晰的含义层次:
层次一:Skill 生成器——能够自动创建、编辑、优化 SKILL.md 的 Skill。Anthropic 发布了官方 skill-creator [15],OpenClaw.NET 内置了 meta-skill-creator 支持三种 DAG 模式:p1_sequential、p2_fan_out_merge、p3_condition_gated [18]。
层次二:Skill 编排器——在众多 Skill 中选择、组合、编排以完成复杂任务。AgentSkillOS [2] 将 Skill 组织为能力树,用 DAG 编排多 Skill 流水线。
层次三:生产级多步 DAG 工作流(OpenClaw.NET 定义)——这是 MetaSKILL 最工程化的定义 [18][19]:
MetaSkill 将重复的多步工作封装为可复用、可审查的 DAG 工作流。当一个请求需要超过一个普通 Skill、工具、检查点或最终综合步骤时,使用 MetaSkill。
核心对比(OpenClaw.NET 精确区分 [18]):
| 能力 | 适用场景 |
|---|---|
Skill (kind: standard) |
一个聚焦任务——指令作为 system prompt 注入。1 步,无 DAG,无暂停,无降级。 |
MetaSkill (kind: meta) |
3-12 步可复用 DAG,带 depends_on、on_failure、user_input 暂停点,完整审计轨迹。 |
举例:"总结这份文档"是 Skill 形态。"将这份合同、报价和邮件转化为签/拒/谈决策建议,包含风险和后续行动"是 MetaSkill 形态 [18]。
从系统角度看,MetaSKILL 是 Skill 生态的"操作系统"——它负责 Skill 的发现、选择、组合、执行与演化。
2 MetaSKILL 解决的六个真问题
OpenClaw.NET 的设计文档精确定义了 MetaSKILL 要解决的单 Skill 无法应对的六个工程问题 [20]:
| # | 问题 | 单 Skill | MetaSKILL 方案 |
|---|---|---|---|
| 1 | 长任务卡死没法停 | ❌ | timeout_seconds + retry + 合约封顶(四层有界执行) |
| 2 | 多步任务需要人确认关键节点 | ❌ | user_input + clarify + checkpoint 暂停/恢复 |
| 3 | 复杂流程要可审计 + 可恢复 | ❌ | MetaRunHistory + replay + reconstruct + proposals |
| 4 | 不同 Skill 之间需要编排依赖 | ❌ | depends_on DAG + skill_exec/agent 委托 |
| 5 | 任务失败需要 fallback 降级路径 | ❌ | on_failure 5 条工程约束 + 输出镜像 |
| 6 | 多团队复用同一任务模板 | ❌ | Meta-skill 即模板 + Session 隔离 + catalog |
2.1 问题 1-2:执行期可靠性
长任务卡死:四层超时保护——步骤级 timeout_seconds + CancellationToken → 步骤重试 retry.max_attempts + backoff_ms → 会话合约 ContractPolicy.MaxRuntimeSeconds → Agent 循环 maxIterations + 熔断器 [19][20]。
人工确认节点:user_input 步骤暂停 DAG 等待结构化人工输入。运行时保存完整 checkpoint(pending/blocked/outputs/stepResults)到 Session,用户输入后恢复。可配置 timeout_seconds + on_failure 降级防止无限等待 [19]。
2.2 问题 3:运维期可信度
每次执行自动记录 SessionMetaRunRecord,包含每步耗时、失败码和执行证据 [19]。运维人员可通过 CLI 查看、回放预览和审计重建:
openclaw skills meta-runs <sid> --run <id> --verbose --json
openclaw skills meta-runs replay <sid> --run <id>
openclaw skills meta-runs reconstruct <sid> --run <id>
2.3 问题 4-5:编排期韧度
DAG 编排:步骤通过 depends_on 声明形成有向无环图。独立步骤并行执行(波次调度)。DAG 引擎在 AgentRuntime(原生)和 MafAgentRuntime(Microsoft Agent Framework 适配器)之间共享,行为一致 [19]。
降级路径:on_failure 声明替代步骤。当主步骤失败时,运行时激活 fallback 并将其输出镜像到主步骤 ID——下游步骤无感知。五条工程约束(parse-time + runtime 双重校验):fallback 目标必须存在、不能自引用、fallback 不能有 on_failure(禁止链式)、同一 fallback 只能被一个 primary 引用、fallback 不能有 depends_on [19][20]。
2.4 问题 6:协作期复用性
一份 SKILL.md 在所有团队共享,每次执行在独立 Session 上下文(outputs 字典、MetaExecutionCheckpoint、MetaRunHistory 均绑定 session.Id),模板通过 {{ input }}、{{ outputs.X }} 传递上下文参数化 [20]。
本质总结 [20]:
问题 1-2:执行期可靠性 (timeout + 暂停)
问题 3: 运维期可信度 (可审计 + 可恢复)
问题 4-5:编排期韧度 (DAG + fallback)
问题 6: 协作期复用性 (模板 + 隔离)
3 架构与技术实现
3.1 SKILL.md:一个事实上的开放标准
2025 年底 Anthropic 将 SKILL.md 格式发布为开放规范 [9],迅速被 10+ 平台采纳 [8]。OpenClaw 和 Claude Code 使用完全相同的 SKILL.md 格式,一个为 Claude Code 编写的 Skill 无需修改即可在 OpenClaw 中使用 [4]。
OpenClaw 采用六级优先级覆盖设计 [1]:workspace skills > project agent skills > personal agent skills > managed skills > bundled skills > extra dirs。每个 agent 可通过 allowlist 独立控制可见的 Skill 集合。
3.2 MetaSKILL 的架构方案
方案 A:OpenClaw.NET MetaSkill 编排器(生产级 DAG 工作流)
这是目前工程化程度最高的 MetaSKILL 实现 [19]。核心组件:
解析管线:SKILL.md YAML frontmatter → SkillLoader 解析 composition.steps → TryValidateMetaPlan DAG 结构校验(唯一 ID、Kind 有效性、依赖引用、无环校验、OnFailure 5 条约束、MetaSkill 嵌套禁止、Route 目标校验 8 项检查)→ 进入 ExecuteMetaSkillAsync 调度循环。
六种步骤类型 [19]:
| Kind | 执行方法 | 工具访问 | 成本 | 适用场景 |
|---|---|---|---|---|
agent |
委托到其他 Skill 指令 | ✅ 完整 | 最高 | 开放式推理与综合分析 |
llm_classify |
强制返回闭集合标签 | ❌ | 最低 | 路由分类器 |
llm_chat |
有界 LLM 生成 | ❌ | 低 | 有界综合 |
tool_call |
直接工具调用 | ✅ 直接 | 最低 | 确定性副作用 |
skill_exec |
子进程执行 | ✅ 子进程 | 低 | CLI 包装的 Skill 执行 |
user_input |
暂停等待人工输入 | ❌ | 暂停开销 | 人工介入澄清表单 |
双运行时架构:DAG 引擎在 AgentRuntime(原生)和 MafAgentRuntime(Microsoft Agent Framework 适配器)之间共享。仅 LLM 调度路径不同——CallLlmWithResilienceAsync vs _chatClient.GetResponseAsync——等价测试保证行为一致 [19]。
失败处理:on_failure 替代步骤 + continue_on_error 控制错误传播 + 输出镜像机制(fallback 输出写入主步骤 ID 的 outputs 槽位,下游无感知)[19]。
用户输入暂停/恢复:skip_if Jinja 评估 → 可选 NL 预提取 → checkpoint 保存到 Session → 返回 waitingPrompt;恢复时 TryRestoreMetaExecutionCheckpoint 重建状态,已完成步骤不重新执行 [19]。
触发器匹配:确定性子串匹配(不区分大小写,按 meta_priority + 触发短语长度排序)+ 路由提示注入(通过 BuildMetaRoutingSuffix 将路由提示注入 system prompt)[19]。
方案 B:AgentSkillOS 能力树 + DAG 编排
上海人工智能实验室提出 [2],将 Skill 组织为能力树(根节点五个大类 → 递归细分 → 可达 20 万 Skill 规模),然后通过 DAG 编排多 Skill 执行。能力树检索在 20 万规模下近似 oracle 水平,DAG 编排显著优于原生扁平调用。
方案 C:EvoSkills 协同进化式 Skill 生成
Skill Generator 迭代生成与优化 + Surrogate Verifier(独立 LLM 会话)合成测试用例提供高保真反馈 [16]。5 轮进化内超越人工 Skill,且进化后的 Skill 可跨 6 个不同模型迁移。
方案 D:CASCADE 双重 Meta-Skill
给 agent 装上两个 meta-skill:持续学习(自行搜索文档和代码示例)+ Skill 自生成(在任务执行中自动捕捉可复用工作流并沉淀为 Skill)[17]。
4 安全:快速膨胀的生态系统面临严峻挑战
4.1 规模与风险并存
截至 2026 年 2 月,公开 Skill 数量超 28 万 [2],社区贡献超 5,200 个 [11]。Snyk 的 ToxicSkills 研究 [3] 对 3,984 个 Skill 的全量安全审计:
- 13.4%(534 个)包含至少一个严重级安全问题;
- 36.82%(1,467 个)存在至少一个安全缺陷;
- 76 个恶意载荷被确认,8 个恶意 Skill 仍在 clawhub.ai 公开可用 [3]。
4.2 攻击面全景
学术界对 31,132 个 Skill 的系统性实证研究 [12] 建立了四大类脆弱性分类:
| 类别 | 代表性漏洞 | 受影响数 |
|---|---|---|
| 提示注入 | 指令覆写 23、隐藏指令 31、数据外泄命令 18 | ~98 |
| 数据外泄 | 外部数据传输 89、环境变量采集 127、文件系统枚举 68 | ~312 |
| 权限提升 | 过度权限请求 94、sudo/root 执行 41、凭证访问 52 | ~187 |
| 供应链 | 未锁定依赖 156、外部脚本拉取 67、混淆代码 55 | ~278 |
4.3 防御与治理
OpenClaw 的三层安全:ClawHub 安装前展示 VirusTotal + ClawScan 扫描状态、openclaw skills verify 验证信任信封、security.installPolicy 自定义安装前安全策略 [1]。OpenClaw.NET MetaSKILL 自身内置 tool_allowlist + metadata.capabilities + MetaSkill.Enabled 三重门控 [19]。
5 生态与产业图景
当前 SKILL 生态的分布渠道已形成多层级结构:官方注册表(ClawHub、Anthropic Skills)、社区集市(Agensi 商业化市场、ClaudeSkills.info)、代码托管(awesome-agent-skills 精选合集 [10])、MCP 集成 [11]。Jonathan Gelin 将 Skill 定义为"AI 时代的 npm 包格式"——可复用的 Markdown 指令包 [6]。
6 学术研究前沿
6.1 SkillsBench:系统性基准
首个将 Agent Skill 作为一等工件评估的基准框架 [5][14]。核心发现:Skill 提供显著但非均匀的收益、2-3 个 Skill 是最优配置、中等长度 Skill 优于巨量 Skill、小模型+Skill 可超越大模型无 Skill、一次性自生成 Skill 几乎无效甚至有害。
6.2 EvoSkills:从无效到超越
针对 SkillsBench 中"自生成 Skill 无效"的结论,通过迭代进化 + Surrogate Verifier 验证机制,将自生成 Skill 质量提升至超越人工水平 [16]。
6.3 OpenClaw.NET:生产级的 MetaSKILL 工程方案
OpenClaw.NET 的 MetaSKILL [18][19][20] 代表了当前最完整的工程实现——不仅是学术概念,而是运行在 AgentRuntime 和 MafAgentRuntime 双运行时上的生产系统,包含完整的解析、校验、调度、执行、暂停/恢复、审计、持久化管线。
7 矛盾分析
7.1 自生成 Skill:冰火两重天
SkillsBench [5]:一次性自生成 Skill 在所有条件下负收益。EvoSkills [16]:迭代进化后可超越人工 Skill。矛盾核心在生成机制而非生成能力——一次性生成缺乏验证反馈循环,进化式生成补上了这个缺口。
7.2 生态增长 vs 安全治理
28 万+ Skill [2] vs 36% 存在安全缺陷 [3]。关键差异:Skill 本质是指令而非代码,传统代码安全工具无法完全覆盖 Skill 攻击面。
7.3 MetaSKILL 的定义之争
学术界的 MetaSKILL 定义偏向"Skill 生成 + 编排" [2][16][17],而 OpenClaw.NET 的工程定义增加了执行可靠性、人工介入、审计追踪、多团队复用四个维度 [20]。这两种视角并非矛盾而是互补——学术界提供方法,工业界提供工程保障。
7.4 已知盲区
- 长期效果评估缺失:所有研究都是短期 benchmark;
- Skill 间交互的涌现行为:多 Skill 同时加载的非预期交互未系统研究;
- MetaSKILL 的递归安全性:谁保证 MetaSKILL 自身的安全性?EvoSkills 的 Surrogate Verifier [16] 提供了内建验证,但验证器自身可靠性尚未充分研究;
- MetaSkill 嵌套问题:OpenClaw.NET 明确禁止 MetaSkill 委托到另一个 MetaSkill(
TryValidateMetaPlan拒绝kind: meta的委托 Skill [19]),但这限制了复杂场景的表达能力。
8 参考来源
[1] OpenClaw Docs — Skills System. https://docs.openclaw.ai/tools/skills
[2] Li H. et al., "AgentSkillOS: Organizing, Orchestrating, and Benchmarking Agent Skills at Ecosystem Scale." ArXiv:2603.02176, Mar 2026.
[3] Snyk Security Research, "ToxicSkills: Malicious AI Agent Skills Supply Chain Compromise." Feb 2026.
[4] Agensi, "OpenClaw vs Claude Code: How Do Their Skill Systems Compare?" Apr 2026.
[5] SkillsBench, "Benchmarking Agent Skills Across Diverse Tasks." ArXiv:2602.12670, Feb 2026.
[6] Gelin J., "📦 Skill is the new package format for AI." Feb 2026.
[7] Red Hat Developer, "Agent Skills: Explore security threats and controls." Mar 2026.
[8] AgentSkills.io — Open Standard. https://agentskills.io/home
[9] Anthropic, "Agent Skills — Claude API Docs."
[10] VoltAgent, "awesome-agent-skills." GitHub.
[11] AGNT.gg, "The 100 Best AI Agent Skills in 2026." Apr 2026.
[12] "Agent Skills in the Wild: An Empirical Study of Security Vulnerabilities at Scale." ArXiv:2601.10338, Jan 2026.
[13] Anthropic, "Skills for Enterprise — Claude API Docs."
[14] SkillsBench, "Introducing SkillsBench." Feb 2026.
[15] Agentman.ai, "skill-creator — AI Skill for Agent Skills."
[16] Zhang H. et al., "EvoSkills: Self-Evolving Agent Skills via Co-Evolutionary Verification." ArXiv:2604.01687, Apr 2026.
[17] 53AI / 腾讯科技, "什么时候Agent能自己写skill?" Mar 2026.
[18] OpenClaw.NET, "MetaSkill 功能概览." https://github.com/clawdotnet/openclaw.net/blob/main/docs/zh-CN/meta-skills.md
[19] OpenClaw.NET, "MetaSkill 编排架构." https://github.com/clawdotnet/openclaw.net/blob/main/docs/zh-CN/meta-skill-orchestration.md
[20] OpenClaw.NET, "MetaSKILL 解决的 6 个真问题." https://github.com/clawdotnet/openclaw.net/blob/main/docs/zh-CN/meta-skill-six-problems.md
欢迎大家扫描下面二维码成为我的客户,扶你上云

浙公网安备 33010602011771号