会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
fariver
博客园
首页
新随笔
联系
订阅
管理
2025年7月22日
[思考] Reinforcement Learning on LLM
摘要: 引爆推理革命:从PPO到GRPO,强化学习如何重塑大语言模型 引言:当强化学习遇上大型语言模型 近年来,大型语言模型(LLM)以前所未有的速度席卷了人工智能领域。然而,预训练的LLM虽然知识渊博,但其输出往往难以完全符合人类的价值观和特定任务的需求。 为了解决这一“对齐”难题,一种新的技术范式——基
阅读全文
posted @ 2025-07-22 21:44 fariver
阅读(408)
评论(0)
推荐(0)
公告