Post-Pretrain如何进一步注入领域知识

案例分享

数据格式
1. 语料格式（任意数据格式）
2. SFT格式（prompt response 问答对）
3. Loss计算
  1. psot-Pretrain Loss计算
    1. 预测生成前一个字预测下一个字
  2. SFT Loss 计算
    1. 只计算答案的损失不计算问题的损失
语料的收集和清洗
1. 文本抽取
  1. 多来源数据收集
  2. 正文提取
2. 数据清洗
  1. 规则过滤
  2. 模型过滤
3. 去重与校验
  1. MinHashLSH
    1. 单类别局部去重
    2. 全局去重
  2. 质量校验
    1. 人工抽样校验
    2. 小规模模型验证
语料配比（英文能力保持中文能力增强金融能力提升）
1. 英文语料 VS 中文预料 = 1:3
2. 金融语料 VS 通用语料 = 5:1（或者动态配比前期9:1 后期 4:1）
Post-Pretrain 算力需求
Post-Pretrain 评测
1. LOSS/PPL
2. 多维度自动评测集
  1. 语言理解能力
  2. 知识推理能力
  3. 常识推理能力
  4. 学科能力
  5. 计算能力
  6. 代码能力
3. 模型自动评估
  1. 评测方式客观题自动评测
  2. 评测集
    1. 利用现有的Benchmark用新的纬度来集成
    2. 自动构建通用 + 金融客观评测集
  3. 特色
    1. 评测pipeline集成到训练pipline 自动化快速验证
4. 评测方式
  1. 英文MMLU
  2. 中文CEVAL
  3. 金融FinanceIQ

posted @ 2025-06-30 01:04 贺艳峰阅读(101) 评论(0) 收藏举报

刷新页面返回顶部