Kiro Skill 会议纪要自动生成:从 Agent 扩展机制选型到 Whisper 幻觉处理的工程实践

背景

会议录音转纪要是一个典型的重复性工作流:音频提取 → 语音转录 → 幻觉过滤 → 术语修正 → 结构化输出。这个流程包含确定性步骤(转录)和需要智能推理的步骤(修正、生成),适合用 AI Agent 的 Skill 机制来编排。

本文基于亚马逊云科技 Kiro IDE 的 Skill 机制,完整记录从扩展机制选型到 Whisper 幻觉处理的工程实践。

Kiro 四种扩展机制的选型分析

Kiro 提供四种扩展方式,选错会导致过度设计或能力不足:

机制 定位 含外部工具 标准 可移植性
Steering 项目规范约束 Kiro 特有
Skills 按需能力包 可含脚本 agentskills.io 开放标准
Powers MCP 工具+知识 含 MCP Server Kiro 特有
Hooks 事件驱动 可执行命令 Kiro 特有

会议纪要选 Skill 的理由:不需要 MCP 工具(本地转录即可),需要脚本(转录必须确定性执行),需要可移植(agentskills.io 标准可跨工具复用)。

架构设计

目录结构

.kiro/skills/meeting-minutes/
├── SKILL.md          # 指令编排(渐进式加载)
├── scripts/
│   └── transcribe.py # 确定性转录
└── references/
    └── output-format.md  # 输出格式约束

三层职责分离

  1. SKILL.md(编排层):定义 6 步执行流程。Kiro 启动时只加载 name+description(1 行 metadata),匹配请求后才加载完整指令。这种渐进式加载策略保持上下文窗口精简。

  2. scripts/(执行层):转录任务是确定性的——同样的输入必须产生同样的输出。用 Python + mlx-whisper 实现,不依赖 LLM。

  3. references/(约束层):输出格式模板。没有模板,Agent 每次输出格式不一致;有了模板,质量稳定可控。

执行流程

环境自检 → ffmpeg 转格式(16kHz WAV) → mlx-whisper 转录
→ 幻觉过滤+术语修正(LLM) → 结构化纪要生成 → [可选]日报

Whisper 幻觉问题

mlx-whisper(Whisper large-v3-turbo 的 MLX 优化版)在 Apple Silicon 上性能优异(1 小时录音 ≈ 5-10 分钟),但有一个已知问题:静默段幻觉

在低音量或静默段落中,Whisper 会生成重复的固定短语(如反复出现的广告词、栏目名)。这些"幻觉"混入转录文本后,会污染纪要质量。

处理策略:在 SKILL.md 第四步明确要求 Agent 识别重复模式并过滤。同时修正语音识别的技术术语错误——这需要上下文理解,正是 LLM 擅长的能力。

设计原则:确定性任务交脚本,智能推理交模型

description 设计

description: 会议录音转会议纪要。将视频(mp4/mkv/webm)或音频(m4a/mp3/wav/flac)文件
  转录为文字,生成结构化会议纪要。支持生成会议工作日报。
  当用户提到会议录音、会议纪要、转录、transcribe meeting 时激活。

Kiro 用 description 中的关键词判断是否激活 Skill。需要覆盖中英文关键词和常见表述——太泛会误触发,太窄会漏触发。

云端扩展路径

本文方案全在本地运行(隐私+零成本+Apple Silicon 加速)。需要规模化时有两个云端方向:

  1. Amazon Transcribe:托管语音转录,支持说话人识别(Speaker Diarization)、自定义词汇表。改造方式:只修改 transcribe.py。

  2. Amazon Bedrock:用云端 LLM 替代 Kiro Agent 做纪要生成,适合 CI/CD 集成或批量处理。

两种方案都只改执行层脚本,SKILL.md 的编排逻辑不需要变动。

推广到其他场景

会议纪要是一个典型案例。Skill 机制适用于任何包含"确定性步骤 + 智能推理步骤"的重复性工作流:

  • 代码审查:静态分析(脚本)+ 逻辑审查(LLM)
  • 部署检查:健康检查(脚本)+ 异常判断(LLM)
  • 日志分析:日志采集(脚本)+ 模式识别(LLM)

参考资料

posted @ 2026-04-24 07:07  亚马逊云开发者  阅读(28)  评论(0)    收藏  举报