会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
红豆生南国 是很遥远的事情
种豆南山下 github
博客园
首页
新随笔
联系
订阅
管理
2025年6月30日
大模型- PPO、DPO 和 KTO 这三种用于大语言模型(LLM)对齐的强化学习算法 -74
摘要: 目录核心思想与类比关键区别对比表详细解释PPODPOKTO如何选择样本数据集格式 核心思想与类比 KTO (Kahneman-Tversky Optimization)。这是一个较新的算法,其命名源于诺贝尔经济学奖得主丹尼尔·卡尼曼和阿莫斯·特沃斯基的前景理论。在LLM对齐的语境下,大家讨论的基本上
阅读全文
posted @ 2025-06-30 10:35 jack-chen666
阅读(738)
评论(0)
推荐(0)
公告