2025 年 6月 30 日随笔档案 - jack-chen666

2025年6月30日

大模型- PPO、DPO 和 KTO 这三种用于大语言模型（LLM）对齐的强化学习算法 -74

摘要：目录核心思想与类比关键区别对比表详细解释PPODPOKTO如何选择样本数据集格式核心思想与类比 KTO (Kahneman-Tversky Optimization)。这是一个较新的算法，其命名源于诺贝尔经济学奖得主丹尼尔·卡尼曼和阿莫斯·特沃斯基的前景理论。在LLM对齐的语境下，大家讨论的基本上阅读全文

posted @ 2025-06-30 10:35 jack-chen666 阅读(1002) 评论(0) 推荐(0)

红豆生南国是很遥远的事情

种豆南山下 github

公告

红豆生南国 是很遥远的事情

种豆南山下 github

公告

红豆生南国是很遥远的事情