Kiro Skill 会议纪要自动生成:从 Agent 扩展机制选型到 Whisper 幻觉处理的工程实践
背景
会议录音转纪要是一个典型的重复性工作流:音频提取 → 语音转录 → 幻觉过滤 → 术语修正 → 结构化输出。这个流程包含确定性步骤(转录)和需要智能推理的步骤(修正、生成),适合用 AI Agent 的 Skill 机制来编排。
本文基于亚马逊云科技 Kiro IDE 的 Skill 机制,完整记录从扩展机制选型到 Whisper 幻觉处理的工程实践。
Kiro 四种扩展机制的选型分析
Kiro 提供四种扩展方式,选错会导致过度设计或能力不足:
| 机制 | 定位 | 含外部工具 | 标准 | 可移植性 |
|---|---|---|---|---|
| Steering | 项目规范约束 | 否 | Kiro 特有 | 低 |
| Skills | 按需能力包 | 可含脚本 | agentskills.io 开放标准 | 高 |
| Powers | MCP 工具+知识 | 含 MCP Server | Kiro 特有 | 中 |
| Hooks | 事件驱动 | 可执行命令 | Kiro 特有 | 低 |
会议纪要选 Skill 的理由:不需要 MCP 工具(本地转录即可),需要脚本(转录必须确定性执行),需要可移植(agentskills.io 标准可跨工具复用)。
架构设计
目录结构
.kiro/skills/meeting-minutes/
├── SKILL.md # 指令编排(渐进式加载)
├── scripts/
│ └── transcribe.py # 确定性转录
└── references/
└── output-format.md # 输出格式约束
三层职责分离
-
SKILL.md(编排层):定义 6 步执行流程。Kiro 启动时只加载 name+description(1 行 metadata),匹配请求后才加载完整指令。这种渐进式加载策略保持上下文窗口精简。
-
scripts/(执行层):转录任务是确定性的——同样的输入必须产生同样的输出。用 Python + mlx-whisper 实现,不依赖 LLM。
-
references/(约束层):输出格式模板。没有模板,Agent 每次输出格式不一致;有了模板,质量稳定可控。
执行流程
环境自检 → ffmpeg 转格式(16kHz WAV) → mlx-whisper 转录
→ 幻觉过滤+术语修正(LLM) → 结构化纪要生成 → [可选]日报
Whisper 幻觉问题
mlx-whisper(Whisper large-v3-turbo 的 MLX 优化版)在 Apple Silicon 上性能优异(1 小时录音 ≈ 5-10 分钟),但有一个已知问题:静默段幻觉。
在低音量或静默段落中,Whisper 会生成重复的固定短语(如反复出现的广告词、栏目名)。这些"幻觉"混入转录文本后,会污染纪要质量。
处理策略:在 SKILL.md 第四步明确要求 Agent 识别重复模式并过滤。同时修正语音识别的技术术语错误——这需要上下文理解,正是 LLM 擅长的能力。
设计原则:确定性任务交脚本,智能推理交模型。
description 设计
description: 会议录音转会议纪要。将视频(mp4/mkv/webm)或音频(m4a/mp3/wav/flac)文件
转录为文字,生成结构化会议纪要。支持生成会议工作日报。
当用户提到会议录音、会议纪要、转录、transcribe meeting 时激活。
Kiro 用 description 中的关键词判断是否激活 Skill。需要覆盖中英文关键词和常见表述——太泛会误触发,太窄会漏触发。
云端扩展路径
本文方案全在本地运行(隐私+零成本+Apple Silicon 加速)。需要规模化时有两个云端方向:
-
Amazon Transcribe:托管语音转录,支持说话人识别(Speaker Diarization)、自定义词汇表。改造方式:只修改 transcribe.py。
-
Amazon Bedrock:用云端 LLM 替代 Kiro Agent 做纪要生成,适合 CI/CD 集成或批量处理。
两种方案都只改执行层脚本,SKILL.md 的编排逻辑不需要变动。
推广到其他场景
会议纪要是一个典型案例。Skill 机制适用于任何包含"确定性步骤 + 智能推理步骤"的重复性工作流:
- 代码审查:静态分析(脚本)+ 逻辑审查(LLM)
- 部署检查:健康检查(脚本)+ 异常判断(LLM)
- 日志分析:日志采集(脚本)+ 模式识别(LLM)
参考资料

浙公网安备 33010602011771号