随笔档案「2025年12月1日」：llm 中的对齐微调 DPO、KTO、PPO算法 ... - wangssd

2025年12月1日

摘要：模型经过海量数据预训练后，它拥有了广泛的知识，但其输出行为是“中性”的，它不知道人类更偏爱哪种风格的回答（例如：更有帮助、更无害、更简洁、更符合特定格式）。对齐微调的目标就是缩小模型与人类偏好之间的差距。对齐微调：利用人类偏好信号来指导模型的优化。 1. PPO(Proximal Policy 阅读全文

posted @ 2025-12-01 10:10 wangssd 阅读(88) 评论(0) 推荐(0)

wangssd

公告