Brain404 - 博客园

2025年12月13日

摘要：减少推理链长度综述在RL的奖励奖励函数中处理 DAPO（25.03）使用软性长度惩罚 ShorterBetter（25.04，芝加哥大学）：找到一个最优长度（模型生成的8个不同回答中，长度最短的正确答案），然后让模型回答长度尽可能接近这个最优长度 SGRPO（25.05，华为）：S-GRPO 在单阅读全文

posted @ 2025-12-13 22:47 Brain404 阅读(8) 评论(0) 推荐(0)

deepseek-r1-grpo

摘要： 1. DeepSeek-r1-zero（推理能力提升） 1.1 数据 prompt模版数据详情：文章中没有提到 1.2 奖励建模采用基于规则的奖励系统，主要包括两类奖励：准确率奖励：准确率奖励模型评估响应是否正确。例如，在具有确定性结果的数学问题中，要求模型以指定格式（如方框内）提供最终答阅读全文

posted @ 2025-12-13 17:39 Brain404 阅读(12) 评论(0) 推荐(0)

2025年12月12日

verl- ray 调试

摘要：下载vscode 扩展：ray-distributed-debugger 添加ray服务集群地址和端口号（ray默认为127.0.1:8265）在verl/verl/trainer/main_ppo.py中的TaskRunner类,run方法中的第一行添加添加一行 breakpoint() 直接启阅读全文

posted @ 2025-12-12 10:34 Brain404 阅读(43) 评论(0) 推荐(0)

2025年12月9日

RL’S RAZOR（RL的灾难性遗忘程度更少）

摘要：论文链接机构：Improbable AI Lab+MIT 日期：25.09 insight 这篇论文的核心问题是：基础模型（如大语言模型或机器人策略）在微调以适应新任务时，常常出现灾难性遗忘（catastrophic forgetting），即学习新知识会损害先前掌握的能力。论文通过对比监督微调（阅读全文

posted @ 2025-12-09 15:19 Brain404 阅读(13) 评论(0) 推荐(0)

RL基础概念，多臂bandit

摘要：参考：动手学强化学习 1. 基本概念强化学习是智能体通过与环境交互来实现目标的一种计算方法。 1.1 智能体强化学习中的“智能体”强调机器不但可以感知周围的环境信息，还可以通过做决策来直接改变这个环境。智能体的三个要素：感知。智能体在某种程度上感知环境的状态，从而知道自己所处的现状。例如，下阅读全文

posted @ 2025-12-09 13:20 Brain404 阅读(11) 评论(0) 推荐(0)

2025年12月8日

强化学习真的能激发LLM的推理能力吗

摘要： arixv链接日期：25.04 机构：LeapLab+清华期刊：NiPS best paper 一篇实验文章，作者通过实验发现，强化学习（RLVR）方法虽然能够提高大语言模型在数学、编程等推理任务上的采样效率（即在少量尝试中获得正确答案的概率），但并没有真正激发出超越基础模型的全新推理能力。（阅读全文

posted @ 2025-12-08 10:49 Brain404 阅读(29) 评论(0) 推荐(0)

2025年12月3日

rllm中的训练流程

摘要： 1. 三种优势计算方法在rllm框架中，实现了三种优势方法，分别是轨迹级别的优势（只针对最后的结果奖励计算优势）；广播模式下的逐步优势（计算结果奖励后，将结果奖励广播到每一步中）；单步模式下的逐步优势（计算结果奖励后，使用蒙特卡洛方法估计每一步的奖励）下面，我使用一个例子来分别说明一下这几种优势阅读全文

posted @ 2025-12-03 16:25 Brain404 阅读(43) 评论(0) 推荐(0)

verl grpo 快速开始

摘要： 1. 什么是verl verl是字节开发的一个RL框架，是现在最主流的强化学习算法框架，没有之一。 2. 环境部署作者在不拉docker镜像的前提下，尝试使用官方教程部署verl，部署后，代码跑不通。上网查了很多资料后，作者自己摸索出了一套流程，可以成功部署环境，并且跑通代码。前置条件：cud 阅读全文

posted @ 2025-12-03 15:08 Brain404 阅读(295) 评论(0) 推荐(0)

2025年12月2日

rllm中的推理流程

摘要：打印一条推理路径在上文中，我们跑通了rllm框架，下面，让我们仔细分析一下examples/math_tool/run_math_with_tool.py中的内部过程。 run_math_with_tool.py的大致代码如下： agent_args = {"tools": ["python"], 阅读全文

posted @ 2025-12-02 20:17 Brain404 阅读(90) 评论(0) 推荐(1)

使用uv安装并运行rllm（不需要拉docker）

摘要： 1. 什么是rllm rllm是伯克利开发的一个用于Agent RL的框架，基于verl开发，简单易上手，可以快速定义环境和工具，并一键运行。 2. 环境部署作者在不拉docker镜像的前提下，尝试使用官方教程部署rllm，部署后，代码跑不通。上网查了很多资料后，作者自己摸索出了一套流程，可以成阅读全文

posted @ 2025-12-02 15:44 Brain404 阅读(39) 评论(0) 推荐(0)

rh-li

公告