摘要: 1. 三种优势计算方法 在rllm框架中,实现了三种优势方法,分别是轨迹级别的优势(只针对最后的结果奖励计算优势);广播模式下的逐步优势(计算结果奖励后,将结果奖励广播到每一步中);单步模式下的逐步优势(计算结果奖励后,使用蒙特卡洛方法估计每一步的奖励) 下面,我使用一个例子来分别说明一下这几种优势 阅读全文
posted @ 2025-12-03 16:25 Brain404 阅读(44) 评论(0) 推荐(0)
摘要: 1. 什么是verl verl是字节开发的一个RL框架,是现在最主流的强化学习算法框架,没有之一。 2. 环境部署 作者在不拉docker镜像的前提下,尝试使用官方教程部署verl,部署后,代码跑不通。 上网查了很多资料后,作者自己摸索出了一套流程,可以成功部署环境,并且跑通代码。 前置条件:cud 阅读全文
posted @ 2025-12-03 15:08 Brain404 阅读(296) 评论(0) 推荐(0)