2025 年 7月 31 日随笔档案 - hsr0316

2025年7月31日

摘要： DPO 与 PPO 算法原理与代码实现对比近年来，大语言模型（LLM）训练中，强化学习（RL）技术被广泛应用于对齐模型输出与人类偏好。PPO（Proximal Policy Optimization）是 RLHF（Reinforcement Learning from Human Feedback 阅读全文

posted @ 2025-07-31 15:59 hsr0316 阅读(367) 评论(0) 推荐(0)

hsr0316

公告