2025 年 2月 26 日随笔档案 - Bronya_Silverwing

2025年2月26日

摘要： PPO 众所周知，PPO在LLM应用下， t时刻下，State就变成了query+output(<t) Reference是初始模型，举个例子可以认为是deepseek V3+SFT之后的模型，是不变的，是fozen model 从头开始推导一次： t0时刻： query输入到policy mode 阅读全文

posted @ 2025-02-26 14:34 Bronya_Silverwing 阅读(689) 评论(0) 推荐(0)

BronyaSilverwing

公告