摘要: 减少推理链长度综述 在RL的奖励奖励函数中处理 DAPO(25.03)使用软性长度惩罚 ShorterBetter(25.04,芝加哥大学):找到一个最优长度(模型生成的8个不同回答中,长度最短的正确答案),然后让模型回答长度尽可能接近这个最优长度 SGRPO(25.05,华为):S-GRPO 在单 阅读全文
posted @ 2025-12-13 22:47 Brain404 阅读(8) 评论(0) 推荐(0)
摘要: 1. DeepSeek-r1-zero(推理能力提升) 1.1 数据 prompt模版 数据详情:文章中没有提到 1.2 奖励建模 采用基于规则的奖励系统,主要包括两类奖励: 准确率奖励:准确率奖励模型评估响应是否正确。 例如,在具有确定性结果的数学问题中, 要求模型以指定格式(如方框内)提供最终答 阅读全文
posted @ 2025-12-13 17:39 Brain404 阅读(12) 评论(0) 推荐(0)
摘要: 下载vscode 扩展:ray-distributed-debugger 添加ray服务集群地址和端口号(ray默认为127.0.1:8265) 在verl/verl/trainer/main_ppo.py中的TaskRunner类,run方法中的第一行添加添加一行 breakpoint() 直接启 阅读全文
posted @ 2025-12-12 10:34 Brain404 阅读(43) 评论(0) 推荐(0)
摘要: 论文链接 机构:Improbable AI Lab+MIT 日期:25.09 insight 这篇论文的核心问题是:基础模型(如大语言模型或机器人策略)在微调以适应新任务时,常常出现灾难性遗忘(catastrophic forgetting),即学习新知识会损害先前掌握的能力。论文通过对比监督微调( 阅读全文
posted @ 2025-12-09 15:19 Brain404 阅读(13) 评论(0) 推荐(0)
摘要: 参考:动手学强化学习 1. 基本概念 强化学习是智能体通过与环境交互来实现目标的一种计算方法。 1.1 智能体 强化学习中的“智能体”强调机器不但可以感知周围的环境信息,还可以通过做决策来直接改变这个环境。 智能体的三个要素: 感知。智能体在某种程度上感知环境的状态,从而知道自己所处的现状。例如,下 阅读全文
posted @ 2025-12-09 13:20 Brain404 阅读(11) 评论(0) 推荐(0)
摘要: arixv链接 日期:25.04 机构:LeapLab+清华 期刊:NiPS best paper 一篇实验文章,作者通过实验发现,强化学习(RLVR)方法虽然能够提高大语言模型在数学、编程等推理任务上的采样效率(即在少量尝试中获得正确答案的概率),但并没有真正激发出超越基础模型的全新推理能力。 ( 阅读全文
posted @ 2025-12-08 10:49 Brain404 阅读(29) 评论(0) 推荐(0)
摘要: 1. 三种优势计算方法 在rllm框架中,实现了三种优势方法,分别是轨迹级别的优势(只针对最后的结果奖励计算优势);广播模式下的逐步优势(计算结果奖励后,将结果奖励广播到每一步中);单步模式下的逐步优势(计算结果奖励后,使用蒙特卡洛方法估计每一步的奖励) 下面,我使用一个例子来分别说明一下这几种优势 阅读全文
posted @ 2025-12-03 16:25 Brain404 阅读(43) 评论(0) 推荐(0)
摘要: 1. 什么是verl verl是字节开发的一个RL框架,是现在最主流的强化学习算法框架,没有之一。 2. 环境部署 作者在不拉docker镜像的前提下,尝试使用官方教程部署verl,部署后,代码跑不通。 上网查了很多资料后,作者自己摸索出了一套流程,可以成功部署环境,并且跑通代码。 前置条件:cud 阅读全文
posted @ 2025-12-03 15:08 Brain404 阅读(295) 评论(0) 推荐(0)
摘要: 打印一条推理路径 在上文中,我们跑通了rllm框架,下面,让我们仔细分析一下examples/math_tool/run_math_with_tool.py中的内部过程。 run_math_with_tool.py的大致代码如下: agent_args = {"tools": ["python"], 阅读全文
posted @ 2025-12-02 20:17 Brain404 阅读(90) 评论(0) 推荐(1)
摘要: 1. 什么是rllm rllm是伯克利开发的一个用于Agent RL的框架,基于verl开发,简单易上手,可以快速定义环境和工具,并一键运行。 2. 环境部署 作者在不拉docker镜像的前提下,尝试使用官方教程部署rllm,部署后,代码跑不通。 上网查了很多资料后,作者自己摸索出了一套流程,可以成 阅读全文
posted @ 2025-12-02 15:44 Brain404 阅读(39) 评论(0) 推荐(0)