大模型算法-PT（预训练）、SFT（监督微调）和RL（强化学习）

总结：sft 或者 rl 。现在 rl 很火，但是比较难搞。sft 里面的提示词工程比较好切入写。

PT（预训练）、SFT（监督微调）和RL（强化学习）是大模型训练流程中的三个核心阶段，分别对应模型能力构建的不同层次和目标。以下是它们的定义、作用及差异详解：

定义：在无标签的大规模数据上训练模型，学习语言的通用模式和知识（如语法、语义、常识）。
核心目标：建立基础语言理解能力，形成通用知识库。
技术特点：

定义：在预训练模型基础上，使用高质量标注数据（指令-答案对）微调模型，使其适应特定任务。
核心目标：对齐人类指令意图，提升任务执行能力（如问答、翻译）。
技术特点：

定义：通过奖励机制引导模型优化策略，使其生成更符合人类偏好的输出。
核心目标：突破SFT的机械模仿，提升创造性、安全性和价值观对齐。
技术流程（以RLHF为例）：

维度	PT（预训练）	SFT（监督微调）	RL（强化学习）
训练目标	学习通用语言模式	对齐特定任务指令	对齐人类偏好与价值观
数据要求	无标签海量文本（TB级）	少量标注指令数据（千至百万级）	人类反馈排序数据 + 交互探索
核心方法	自监督学习（掩码/自回归预测）	监督学习（交叉熵损失）	强化学习（PPO、DPO）
能力侧重	基础语言理解、知识存储	任务规范性、格式一致性	创造性、安全性、泛化能力
典型局限	缺乏任务针对性	泛化弱、易过拟合	训练复杂、成本高

💡 技术趋势：当前主流方案为 PT → SFT → RL 三阶段协同（如GPT-4），部分场景可跳过SFT（如DeepSeek-R1直接RL提升创意），但需警惕输出不可控风险。

通过三阶段分层优化，大模型从“知识库”逐步进阶为“任务专家”再到“价值观对齐的智能体”，实现能力与安全的平衡。

posted @ 2025-08-14 13:49 向着朝阳阅读(404) 评论(0) 收藏举报

刷新页面返回顶部

aibi1