会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
wangssd
博客园
首页
新随笔
联系
订阅
管理
2025年12月1日
llm 中的对齐微调 DPO、KTO、PPO算法
摘要: 模型经过海量数据预训练后,它拥有了广泛的知识,但其输出行为是“中性”的,它不知道人类更偏爱哪种风格的回答(例如:更有帮助、更无害、更简洁、更符合特定格式)。对齐微调 的目标就是缩小模型与人类偏好之间的差距。 对齐微调:利用人类偏好信号来指导模型的优化。 1. PPO(Proximal Policy
阅读全文
posted @ 2025-12-01 10:10 wangssd
阅读(63)
评论(0)
推荐(0)
公告