Post-Pretrain如何进一步注入领域知识

案例分享

  1. 度小满轩辕金融大模型
    1. 基础模型 LLAMA2-70B。
    2. 使用Post-Pretrain注入金融知识。
    3. 步骤
      1. 预训练阶段 获得知识
        1. 万级金融类书籍
        2. 十万级金融百科词条
        3. 百万级市公司公告
      2. 指令微调: 激活问答能力
        • 根据金融百科启发式产生对应问答指令数据
        • 改写金融试题数据,指令风格统一
      3. 强化学习:对齐偏好
        • 人工标注排序数据
        • 角色扮演客服类数据
        • 金融计算数据
  2. CODE-LLAMA 代码大模型
    1. 结论
      1. 在HumanEval & MBPP 代码测评集上CODE-LLAMA-7B效果优于LLAMA2-70B
    2. 训练步骤
      1. 选择LLAMA2 7B 13B 34B
      2. 进行code traning 的持续训练
      3. 再第二步骤基础上将python code单独提取 进行专项增强
      4. 进行指令微调
  3. 千帆中文LLaMA大模型
    1. 数据
      1. 语料采集 高质量语料清洗
      2. 领域数据分析 配比
      3. 数据去重 回塑
    2. 基础与预训练
      1. 中文词表扩增
      2. 大模型收敛优化
      3. 3D分布式训练
    3. 指令能力优化
      1. 广泛收集 标注多种类型指令数据
      2. 注重理解 生成 对话等多种能力
      3. 自动评估和人工评估相组合

如何训练领域模型

  1. 两阶段Post-Pretrain (增加中文理解能力,注入领域知识)
    1. 中文增强
    2. 垂直领域
  2. 两阶段SFT(保证通用指令跟随能力同时,提升领域问答能力)
    1. 通用SFT
    2. 垂直领域SFT
  3. RLHF/DPO(人类偏好对齐)
    1. RLHF
    2. DPO

Post-Pretrain VS SFT

  1. 数据格式
    1. 语料格式 (任意数据格式)
    2. SFT格式(prompt response 问答对)
    3. Loss计算
      1. psot-Pretrain Loss计算
        1. 预测生成 前一个字预测下一个字
      2. SFT Loss 计算
        1. 只计算答案的损失 不计算问题的损失
  2. 语料的收集和清洗
    1. 文本抽取
      1. 多来源数据收集
      2. 正文提取
    2. 数据清洗
      1. 规则过滤
      2. 模型过滤
    3. 去重与校验
      1. MinHashLSH
        1. 单类别局部去重
        2. 全局去重
      2. 质量校验
        1. 人工抽样校验
        2. 小规模模型验证
  3. 语料配比(英文能力保持 中文能力增强 金融能力提升)
    1. 英文语料 VS 中文预料 = 1:3
    2. 金融语料 VS 通用语料 = 5:1(或者动态配比 前期9:1 后期 4:1)
  4. Post-Pretrain 算力需求
    img
  5. Post-Pretrain 评测
    1. LOSS/PPL
    2. 多维度自动评测集
      1. 语言理解能力
      2. 知识推理能力
      3. 常识推理能力
      4. 学科能力
      5. 计算能力
      6. 代码能力
    3. 模型自动评估
      1. 评测方式 客观题自动评测
      2. 评测集
        1. 利用现有的Benchmark用新的纬度来集成
        2. 自动构建通用 + 金融客观评测集
      3. 特色
        1. 评测pipeline集成到训练pipline 自动化快速验证
    4. 评测方式
      1. 英文MMLU
      2. 中文CEVAL
      3. 金融FinanceIQ
posted @ 2025-06-30 01:04  贺艳峰  阅读(101)  评论(0)    收藏  举报