摘要: 机构:Salesforce AI Research 链接:https://arxiv.org/abs/2504.11343 alpharxiv🌟:1200+ insight 在这项工作中,我们从一种类似于增强的算法视角重新审视GRPO 并分析其核心组件。令人惊 讶的是,我们发现一个简单的拒绝采样基 阅读全文
posted @ 2025-12-16 14:00 Brain404 阅读(5) 评论(0) 推荐(0)
摘要: 重要性采样 起点:我们想要计算什么? 重要性采样要解决的核心问题是:我们想计算一个函数 \(f(x)\) 在目标分布 \(p(x)\) 下的期望值,但我们只有从另一个分布 \(q(x)\) 中采样的样本。 用数学语言表达,我们的目标是计算: \[\mathbb{E}_{x \sim p}[f(x)] 阅读全文
posted @ 2025-12-16 10:56 Brain404 阅读(1) 评论(0) 推荐(0)
摘要: LIMR(25.02,SJTU):从大数据集里面挑出小数据集。方法: 1. 计算第k步中所有样本平均奖励的变化情况(跑一小步就可以) 2. 对于第i个样本,计算其奖励和平均奖励曲线的对齐程度 3. 选出对齐程度高的样本作为训练样本 缺点:没有办法从大样本集合中选出高质量样本 DAPO:进行动态采样 阅读全文
posted @ 2025-12-15 18:29 Brain404 阅读(5) 评论(0) 推荐(0)
摘要: 减少推理链长度综述 在RL的奖励奖励函数中处理 DAPO(25.03)使用软性长度惩罚 ShorterBetter(25.04,芝加哥大学):找到一个最优长度(模型生成的8个不同回答中,长度最短的正确答案),然后让模型回答长度尽可能接近这个最优长度 SGRPO(25.05,华为):S-GRPO 在单 阅读全文
posted @ 2025-12-13 22:47 Brain404 阅读(3) 评论(0) 推荐(0)
摘要: 1. DeepSeek-r1-zero(推理能力提升) 1.1 数据 prompt模版 数据详情:文章中没有提到 1.2 奖励建模 采用基于规则的奖励系统,主要包括两类奖励: 准确率奖励:准确率奖励模型评估响应是否正确。 例如,在具有确定性结果的数学问题中, 要求模型以指定格式(如方框内)提供最终答 阅读全文
posted @ 2025-12-13 17:39 Brain404 阅读(8) 评论(0) 推荐(0)
摘要: 下载vscode 扩展:ray-distributed-debugger 添加ray服务集群地址和端口号(ray默认为127.0.1:8265) 在verl/verl/trainer/main_ppo.py中的TaskRunner类,run方法中的第一行添加添加一行 breakpoint() 直接启 阅读全文
posted @ 2025-12-12 10:34 Brain404 阅读(10) 评论(0) 推荐(0)
摘要: 论文链接 机构:Improbable AI Lab+MIT 日期:25.09 insight 这篇论文的核心问题是:基础模型(如大语言模型或机器人策略)在微调以适应新任务时,常常出现灾难性遗忘(catastrophic forgetting),即学习新知识会损害先前掌握的能力。论文通过对比监督微调( 阅读全文
posted @ 2025-12-09 15:19 Brain404 阅读(5) 评论(0) 推荐(0)
摘要: 参考:动手学强化学习 1. 基本概念 强化学习是智能体通过与环境交互来实现目标的一种计算方法。 1.1 智能体 强化学习中的“智能体”强调机器不但可以感知周围的环境信息,还可以通过做决策来直接改变这个环境。 智能体的三个要素: 感知。智能体在某种程度上感知环境的状态,从而知道自己所处的现状。例如,下 阅读全文
posted @ 2025-12-09 13:20 Brain404 阅读(8) 评论(0) 推荐(0)
摘要: arixv链接 日期:25.04 机构:LeapLab+清华 期刊:NiPS best paper 一篇实验文章,作者通过实验发现,强化学习(RLVR)方法虽然能够提高大语言模型在数学、编程等推理任务上的采样效率(即在少量尝试中获得正确答案的概率),但并没有真正激发出超越基础模型的全新推理能力。 ( 阅读全文
posted @ 2025-12-08 10:49 Brain404 阅读(18) 评论(0) 推荐(0)
摘要: 1. 三种优势计算方法 在rllm框架中,实现了三种优势方法,分别是轨迹级别的优势(只针对最后的结果奖励计算优势);广播模式下的逐步优势(计算结果奖励后,将结果奖励广播到每一步中);单步模式下的逐步优势(计算结果奖励后,使用蒙特卡洛方法估计每一步的奖励) 下面,我使用一个例子来分别说明一下这几种优势 阅读全文
posted @ 2025-12-03 16:25 Brain404 阅读(16) 评论(0) 推荐(0)