摘要: RL的领域越来越炸裂了,近期又有团队开源了 Zero Data 做reinforcement learning的方法:在post train阶段,做RL时 Absolute Zero data,听名字是不是很炸裂啊!先来回顾一下LLM领域做RL的历史阶段: 最早是PPO/DPO等方式,需要人工标注数 阅读全文
posted @ 2025-05-29 18:07 第七子007 阅读(197) 评论(0) 推荐(0)