大模型算法-PT(预训练)、SFT(监督微调)和RL(强化学习)

总结:sft 或者 rl 。现在 rl 很火,但是比较难搞。sft 里面的提示词工程比较好切入写。

PT(预训练)、SFT(监督微调)和RL(强化学习)是大模型训练流程中的三个核心阶段,分别对应模型能力构建的不同层次和目标。以下是它们的定义、作用及差异详解:


1. PT(Pre-training,预训练)

定义:在无标签的大规模数据上训练模型,学习语言的通用模式和知识(如语法、语义、常识)。
核心目标:建立基础语言理解能力,形成通用知识库。
技术特点

  • 自监督学习:通过掩码语言建模(BERT)或自回归预测(GPT)等方式,让模型预测文本中的缺失部分。
  • 海量数据:通常使用TB级文本(如网页、书籍、百科),参数规模达百亿至万亿级。
  • 计算密集型:需数千张GPU并行训练数周至数月。
    典型应用:构建通用基座模型(如GPT-3、LLaMA)。

2. SFT(Supervised Fine-Tuning,监督微调)

定义:在预训练模型基础上,使用高质量标注数据(指令-答案对)微调模型,使其适应特定任务。
核心目标:对齐人类指令意图,提升任务执行能力(如问答、翻译)。
技术特点

  • 标注数据驱动:数据格式如 {"instruction": "翻译句子", "input": "Hello", "output": "你好"}
  • 参数高效调整:可采用全参数微调或参数高效方法(如LoRA、P-tuning),仅更新部分权重。
  • 减少灾难性遗忘:小学习率微调,保留预训练知识。
    优势与局限
  • ✅ 快速适配任务,提升回答规范性和流畅性。
  • ❌ 易过拟合训练数据,泛化能力有限(如未见过的问题易出错)。

3. RL(Reinforcement Learning,强化学习)

定义:通过奖励机制引导模型优化策略,使其生成更符合人类偏好的输出。
核心目标:突破SFT的机械模仿,提升创造性、安全性和价值观对齐。
技术流程(以RLHF为例)

  1. SFT模型初始化:作为强化学习的起点。
  2. 奖励模型(RM)训练:人类标注员对模型输出排序,训练RM预测回答质量(如安全性、有用性)。
  3. 策略优化(如PPO算法):模型生成多样回答 → RM打分 → 调整策略以最大化奖励。
    关键特点
  • 试错学习:模型探索不同回答路径,根据奖励信号迭代优化。
  • 分布外泛化:在陌生场景中表现更鲁棒(如处理伦理困境)。
  • 计算挑战:需大量交互数据,训练不稳定且资源消耗高。

三阶段对比总结

维度 PT(预训练) SFT(监督微调) RL(强化学习)
训练目标 学习通用语言模式 对齐特定任务指令 对齐人类偏好与价值观
数据要求 无标签海量文本(TB级) 少量标注指令数据(千至百万级) 人类反馈排序数据 + 交互探索
核心方法 自监督学习(掩码/自回归预测) 监督学习(交叉熵损失) 强化学习(PPO、DPO)
能力侧重 基础语言理解、知识存储 任务规范性、格式一致性 创造性、安全性、泛化能力
典型局限 缺乏任务针对性 泛化弱、易过拟合 训练复杂、成本高

实际应用场景

  1. PT:构建通用基座模型(如LLaMA、BERT),作为下游任务基础。
  2. SFT
    • 客服机器人:学习企业标准话术。
    • 代码助手:适配特定编程语言规范(如CodeLlama)。
  3. RL
    • 对话系统:避免生成有害内容,提升回答亲和力(如ChatGPT)。
    • 游戏AI:动态调整策略应对未知场景。

💡 技术趋势:当前主流方案为 PT → SFT → RL 三阶段协同(如GPT-4),部分场景可跳过SFT(如DeepSeek-R1直接RL提升创意),但需警惕输出不可控风险。

通过三阶段分层优化,大模型从“知识库”逐步进阶为“任务专家”再到“价值观对齐的智能体”,实现能力与安全的平衡。

posted @ 2025-08-14 13:49  向着朝阳  阅读(404)  评论(0)    收藏  举报