2025 年 5月 29 日随笔档案 - 第七子007

2025年5月29日

LLM大模型：Absolute Zero: Reinforced Self-play Reasoning with Zero Data 0数据做post train RL

摘要： RL的领域越来越炸裂了，近期又有团队开源了 Zero Data 做reinforcement learning的方法：在post train阶段，做RL时 Absolute Zero data，听名字是不是很炸裂啊！先来回顾一下LLM领域做RL的历史阶段：最早是PPO/DPO等方式，需要人工标注数阅读全文

posted @ 2025-05-29 18:07 第七子007 阅读(222) 评论(0) 推荐(0)

第七子007

公告