摘要: DPO 与 PPO 算法原理与代码实现对比 近年来,大语言模型(LLM)训练中,强化学习(RL)技术被广泛应用于对齐模型输出与人类偏好。PPO(Proximal Policy Optimization)是 RLHF(Reinforcement Learning from Human Feedback 阅读全文
posted @ 2025-07-31 15:59 hsr0316 阅读(367) 评论(0) 推荐(0)