2025 年 4月 15 日随笔档案 - 胸中有泰勒

2025年4月15日

摘要：下面是PPO算法：现在开始讲解GRPO: 1: policy model π_θ ← π_{θ_init} 2: for iteration = 1, ..., I do 3: reference model π_ref ← π_θ 初始策略模型可以是没训练的语言模型。将该模型作为当前的策略模型阅读全文

posted @ 2025-04-15 21:29 胸中有泰勒阅读(815) 评论(0) 推荐(0)

ziahng

公告