数据标注-不同场景标注
目录
被评测的对象 = 模型系统
如果标注也用模型 → 裁判和选手是同一类系统
👉 这在工业上是不可接受的。
所以需要人工复核
| 数据用途 | 标注方式 | 标注强度 / 人工比例 | 工业实践说明 |
|---|---|---|---|
| 模型微调 / 训练集 | LLM 预标注 + 人工复核 | 高(接近 100% 人工复核) | 训练数据必须干净,确保模型学习正确行为 |
| 上线后准确度评测 | LLM 预标注 + 人工 100% 复核 | 人工主导,LLM 仅辅助 | Ground Truth 必须由人工确认,保证评测指标真实可靠 |
| 监控 / BI / 趋势分析 | LLM 自动标注 + 抽检人工复核 | 中(可抽检 10–30%) | 用于趋势判断和指标报警,成本可控 |
| 低风险实验 / 灰度快速反馈 | LLM 自动标注 | 低(可不复核或抽检少量) | 只做快速验证,非决策性用途 |
监控 / BI / 趋势分析 标注权重
| 样本类别 | 权重 / 抽样比例 | 说明 |
|---|---|---|
| 高风险用户 / 高客单 | 30% | 成交前阶段、objection |
| 新知识 / 新话术 | 15% | 最近 7 天上线的 Prompt / 模板 / KB |
| 模型不确定性高 | 15% | 意图识别 / RAG 返回概率低或相似度低 |
| 投诉 / 点踩 / 转人工 | 20% | 历史问题优先覆盖 |
| 其余随机兜底 | 20% | 保证整体代表性 |
一、结论先行(面试版)
工业上几乎从不只用人工,也不只用大模型,而是「大模型预标注 + 人工复核 / 抽检」的混合模式。
原因只有一个:
纯人工太慢太贵,纯大模型不可信、不可控。
二、三种方式对比(为什么要结合)
1️⃣ 纯人工标注(理论最干净,实际不可规模化)
优点
- 准确
- 业务理解强
致命问题
- 成本极高
- 速度慢
- 无法支撑频繁迭代(Prompt / KB / 模型反复上线)
结论
- ❌ 只适合小规模关键样本
- ❌ 不适合全量训练数据
2️⃣ 纯大模型自动标注(快,但风险极高)
优点
- 成本低
- 可快速生成大量数据
问题
- 会把模型的偏差写进训练集(自举污染)
- 错误是“稳定且隐蔽的”
- 标注标准不一致(尤其是 Phase / Business Acceptance)
结论
- ❌ 不能直接用于训练或上线评测
- ❌ 面试说“全用大模型”是明显扣分点
3️⃣ 工业标准做法:LLM 预标注 + 人工校验(主流)
这是几乎所有成熟团队的真实做法。
三、工业级混合标注流程(一步一步)
Step 1:从生产中捞数据
-
来源:
- 历史真实聊天记录
- 覆盖核心场景 / 高风险阶段
-
数据清洗:
- 去噪
- 脱敏
- 切分成「会话样本」
Step 2:大模型做预标注(Pre-labeling)
LLM 负责:
- Intent
- Phase(Awareness / Consideration / Objection / Conversion)
- Action(CTA / 售后 / 咨询等)
- RAG 命中是否正确(粗判)
- Business Acceptance(初判 Accept / Risk / Reject)
注意
- 大模型此时是“助手”,不是裁判
- 只负责提高人工效率
Step 3:人工质检 / 复核(关键)
人工做什么?
-
修正:
- 错误 Intent
- 错误 Phase
- 高风险 Business 判断
-
重点关注:
- 成交前
- objection
- 高客单
- 投诉 / 点踩 / 转人工会话
通常策略:
- 全量复核高风险样本
- 低风险样本抽检 10%–30%
Step 4:一致性与质量控制
工业上一定会做:
- 双人标注一致性(Inter-Annotator Agreement)
- 低一致性样本回流讨论 → 统一标注标准
- 形成标注规范文档
四、不同数据用途,用不同标注强度(非常重要)
1️⃣ 用于模型微调 / 训练
要求:
- 高准确
- 宁少勿脏
做法:
- LLM 预标注
- 人工强校验(接近 100%)
- 严禁“未经人工复核直接入训”
2️⃣ 用于上线后准确度评测
做法:
-
抽样生产会话
- 按会话或用户抽样
- 覆盖各阶段、Action、用户类型、高风险业务
-
大模型预标注(辅助)
-
LLM 提供初步标签:
- Intent
- Phase / Action
- RAG / KB 命中
- 初步 Business Acceptance 判断(Accept / Risk / Reject)
-
目的是加速人工复核,而非最终标签
-
-
人工 100% 复核 / 确认
- 人工逐条检查 LLM 预标注结果
- 修正错误标签
- Business Acceptance 最终由人工裁决
⚠️ Ground Truth = 人工确认后的标签,LLM 只做辅助参考。
-
指标计算
- Intent / Phase / Action 准确率
- RAG / KB 正确率
- Business Acceptance(人工质检)
3️⃣ 用于分析 & 监控(BI)
要求:
- 趋势判断
- 快速反馈
做法:
- LLM 自动标注为主
- 少量人工抽检
五、面试官最爱听的总结说法
你可以这样回答:
在工业场景中,数据标注通常采用大模型预标注 + 人工复核的混合模式。
大模型负责规模和效率,人工负责准确性和业务安全。
- 用于模型微调的数据,人工校验比例非常高
- 用于评测的数据,基本由人工主导
- 用于监控和趋势分析,可以以大模型自动标注为主
这样可以在成本、效率和质量之间取得平衡。
六、一句话金句(记住这句)
大模型负责“快”,人工负责“对”,这是工业标注的基本共识。
如果你愿意,下一步我可以帮你把:
- 不同数据用途 × 标注方式 × 人工比例
整理成一张「工业级数据准备决策表」,面试时直接照着讲,非常加分。

浙公网安备 33010602011771号