会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
gongzb
博客园
首页
新随笔
联系
订阅
管理
2025年7月22日
从 PPO、DPO 到 GRPO:万字长文详解大模型训练中的三大关键算法
摘要: 转自:https://mp.weixin.qq.com/s/OMpD6ITqNi4jX95nSRC2Ig 在人工智能的浪潮之巅,大型语言模型(LLM)的进化速度令人瞩目。然而,如何让这些模型不仅“能说”,更能“会道”,使其回答更符合人类的价值观、偏好和期望,成为了业界的核心挑战。为了实现这一目标,一
阅读全文
posted @ 2025-07-22 16:21 有何m不可
阅读(8082)
评论(0)
推荐(0)
公告