2025 年 12月 3 日随笔档案 - Brain404

2025年12月3日

摘要： 1. 三种优势计算方法在rllm框架中，实现了三种优势方法，分别是轨迹级别的优势（只针对最后的结果奖励计算优势）；广播模式下的逐步优势（计算结果奖励后，将结果奖励广播到每一步中）；单步模式下的逐步优势（计算结果奖励后，使用蒙特卡洛方法估计每一步的奖励）下面，我使用一个例子来分别说明一下这几种优势阅读全文

posted @ 2025-12-03 16:25 Brain404 阅读(44) 评论(0) 推荐(0)

verl grpo 快速开始

摘要： 1. 什么是verl verl是字节开发的一个RL框架，是现在最主流的强化学习算法框架，没有之一。 2. 环境部署作者在不拉docker镜像的前提下，尝试使用官方教程部署verl，部署后，代码跑不通。上网查了很多资料后，作者自己摸索出了一套流程，可以成功部署环境，并且跑通代码。前置条件：cud 阅读全文

posted @ 2025-12-03 15:08 Brain404 阅读(296) 评论(0) 推荐(0)

rh-li

公告