数据标注-不同场景标注

被评测的对象 = 模型系统
如果标注也用模型 → 裁判和选手是同一类系统
👉 这在工业上是不可接受的。
所以需要人工复核

数据用途 标注方式 标注强度 / 人工比例 工业实践说明
模型微调 / 训练集 LLM 预标注 + 人工复核 高(接近 100% 人工复核) 训练数据必须干净,确保模型学习正确行为
上线后准确度评测 LLM 预标注 + 人工 100% 复核 人工主导,LLM 仅辅助 Ground Truth 必须由人工确认,保证评测指标真实可靠
监控 / BI / 趋势分析 LLM 自动标注 + 抽检人工复核 中(可抽检 10–30%) 用于趋势判断和指标报警,成本可控
低风险实验 / 灰度快速反馈 LLM 自动标注 低(可不复核或抽检少量) 只做快速验证,非决策性用途

监控 / BI / 趋势分析 标注权重

样本类别 权重 / 抽样比例 说明
高风险用户 / 高客单 30% 成交前阶段、objection
新知识 / 新话术 15% 最近 7 天上线的 Prompt / 模板 / KB
模型不确定性高 15% 意图识别 / RAG 返回概率低或相似度低
投诉 / 点踩 / 转人工 20% 历史问题优先覆盖
其余随机兜底 20% 保证整体代表性

一、结论先行(面试版)

工业上几乎从不只用人工,也不只用大模型,而是「大模型预标注 + 人工复核 / 抽检」的混合模式。

原因只有一个:
纯人工太慢太贵,纯大模型不可信、不可控。


二、三种方式对比(为什么要结合)

1️⃣ 纯人工标注(理论最干净,实际不可规模化)

优点

  • 准确
  • 业务理解强

致命问题

  • 成本极高
  • 速度慢
  • 无法支撑频繁迭代(Prompt / KB / 模型反复上线)

结论

  • ❌ 只适合小规模关键样本
  • ❌ 不适合全量训练数据

2️⃣ 纯大模型自动标注(快,但风险极高)

优点

  • 成本低
  • 可快速生成大量数据

问题

  • 会把模型的偏差写进训练集(自举污染)
  • 错误是“稳定且隐蔽的”
  • 标注标准不一致(尤其是 Phase / Business Acceptance)

结论

  • ❌ 不能直接用于训练或上线评测
  • ❌ 面试说“全用大模型”是明显扣分点

3️⃣ 工业标准做法:LLM 预标注 + 人工校验(主流)

这是几乎所有成熟团队的真实做法。


三、工业级混合标注流程(一步一步)

Step 1:从生产中捞数据

  • 来源:

    • 历史真实聊天记录
    • 覆盖核心场景 / 高风险阶段
  • 数据清洗:

    • 去噪
    • 脱敏
    • 切分成「会话样本」

Step 2:大模型做预标注(Pre-labeling)

LLM 负责:

  • Intent
  • Phase(Awareness / Consideration / Objection / Conversion)
  • Action(CTA / 售后 / 咨询等)
  • RAG 命中是否正确(粗判)
  • Business Acceptance(初判 Accept / Risk / Reject)

注意

  • 大模型此时是“助手”,不是裁判
  • 只负责提高人工效率

Step 3:人工质检 / 复核(关键)

人工做什么?

  • 修正:

    • 错误 Intent
    • 错误 Phase
    • 高风险 Business 判断
  • 重点关注:

    • 成交前
    • objection
    • 高客单
    • 投诉 / 点踩 / 转人工会话

通常策略:

  • 全量复核高风险样本
  • 低风险样本抽检 10%–30%

Step 4:一致性与质量控制

工业上一定会做:

  • 双人标注一致性(Inter-Annotator Agreement)
  • 低一致性样本回流讨论 → 统一标注标准
  • 形成标注规范文档

四、不同数据用途,用不同标注强度(非常重要)

1️⃣ 用于模型微调 / 训练

要求:

  • 高准确
  • 宁少勿脏

做法:

  • LLM 预标注
  • 人工强校验(接近 100%)
  • 严禁“未经人工复核直接入训”

2️⃣ 用于上线后准确度评测

做法

  1. 抽样生产会话

    • 按会话或用户抽样
    • 覆盖各阶段、Action、用户类型、高风险业务
  2. 大模型预标注(辅助)

    • LLM 提供初步标签:

      • Intent
      • Phase / Action
      • RAG / KB 命中
      • 初步 Business Acceptance 判断(Accept / Risk / Reject)
    • 目的是加速人工复核,而非最终标签

  3. 人工 100% 复核 / 确认

    • 人工逐条检查 LLM 预标注结果
    • 修正错误标签
    • Business Acceptance 最终由人工裁决

⚠️ Ground Truth = 人工确认后的标签,LLM 只做辅助参考。

  1. 指标计算

    • Intent / Phase / Action 准确率
    • RAG / KB 正确率
    • Business Acceptance(人工质检)

3️⃣ 用于分析 & 监控(BI)

要求:

  • 趋势判断
  • 快速反馈

做法:

  • LLM 自动标注为主
  • 少量人工抽检

五、面试官最爱听的总结说法

你可以这样回答:

在工业场景中,数据标注通常采用大模型预标注 + 人工复核的混合模式
大模型负责规模和效率,人工负责准确性和业务安全。

  • 用于模型微调的数据,人工校验比例非常高
  • 用于评测的数据,基本由人工主导
  • 用于监控和趋势分析,可以以大模型自动标注为主

这样可以在成本、效率和质量之间取得平衡。


六、一句话金句(记住这句)

大模型负责“快”,人工负责“对”,这是工业标注的基本共识。


如果你愿意,下一步我可以帮你把:

  • 不同数据用途 × 标注方式 × 人工比例
    整理成一张「工业级数据准备决策表」,面试时直接照着讲,非常加分。
posted @ 2026-01-14 09:44  向着朝阳  阅读(2)  评论(0)    收藏  举报