会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
第七子007
博客园
首页
新随笔
联系
订阅
管理
2025年5月29日
LLM大模型:Absolute Zero: Reinforced Self-play Reasoning with Zero Data 0数据做post train RL
摘要: RL的领域越来越炸裂了,近期又有团队开源了 Zero Data 做reinforcement learning的方法:在post train阶段,做RL时 Absolute Zero data,听名字是不是很炸裂啊!先来回顾一下LLM领域做RL的历史阶段: 最早是PPO/DPO等方式,需要人工标注数
阅读全文
posted @ 2025-05-29 18:07 第七子007
阅读(197)
评论(0)
推荐(0)
公告