摘要: 参考资料: 首先,看verl的官方文档,了解基础知识 看知乎,了解主要代码 关于AgentLoop的信息,详见这篇博客 看Verl AgentLoop论文 笔记待整理 阅读全文
posted @ 2025-12-21 17:36 Brain404 阅读(26) 评论(0) 推荐(0)
摘要: 当我们训练好了一个verl 检查点之后,如何用它来评估我们在测试集上的指标? 特别是涉及到工具调用的Agent训练,如果直接部署API,那么还需要搭建ReAct流,开发成本比较大。 个人觉得比较简单的一种方法为: 将测试集处理为verl 适配的parquet文件格式 开发对应的奖励函数(一般直接复用 阅读全文
posted @ 2025-12-21 12:55 Brain404 阅读(22) 评论(0) 推荐(0)
摘要: RL参数配置 当我们运行python -m verl.trainer.main_ppo时,文件的主函数为: @hydra.main(config_path="config", config_name="_generated_ppo_trainer", version_base=None) def m 阅读全文
posted @ 2025-12-21 12:44 Brain404 阅读(22) 评论(0) 推荐(0)
摘要: 团队:tongyi 时间:25.10 领域:deepsearch的tts(测试时缩放策略) 发现1: 对于deepsearch来说,推理+工具调用token的PPL,发现:探索token(工具调用的token)在一开始达到峰值,此时模型必须在先验知识最少的情况下探索环境。与之相对,推理不确定性稍晚一 阅读全文
posted @ 2025-12-21 09:34 Brain404 阅读(9) 评论(0) 推荐(0)
摘要: 使用verl进行sft的命令大致为: 单机多卡: #!/bin/bash set -x nproc_per_node=4 save_path="./checkpoints" torchrun --standalone --nnodes=1 --nproc_per_node=$nproc_per_no 阅读全文
posted @ 2025-12-20 22:01 Brain404 阅读(28) 评论(0) 推荐(0)
摘要: 最近看到了一篇很有意思的论文Parallel-R1,是用RL训练一个并行推理的模型,大概的格式为: <模型推理过程> 突然生成一个<parallel>,进入多路径推理 <parallel> <path> ... </path> 每一条推理路径之间互相不可见(使用attention mask mask 阅读全文
posted @ 2025-12-20 21:49 Brain404 阅读(26) 评论(0) 推荐(0)
摘要: 主函数定义在/rllm/tools/code_tools/python_interpreter.py中 def _init_backend(self): """初始化沙箱""" # 默认使用LCBPythonInterpreter if self.backend_type == "local": s 阅读全文
posted @ 2025-12-20 17:45 Brain404 阅读(8) 评论(0) 推荐(0)
摘要: 机构:Salesforce AI Research 链接:https://arxiv.org/abs/2504.11343 alpharxiv🌟:1200+ insight 在这项工作中,我们从一种类似于增强的算法视角重新审视GRPO 并分析其核心组件。令人惊 讶的是,我们发现一个简单的拒绝采样基 阅读全文
posted @ 2025-12-16 14:00 Brain404 阅读(14) 评论(0) 推荐(0)
摘要: VERL-GRPO 源码分析 脚本为verl v0.5.0中的快速开始脚本 # Tested successfully on the hiyouga/verl:ngc-th2.6.0-cu126-vllm0.8.4-flashinfer0.2.2-cxx11abi0 image. # It outp 阅读全文
posted @ 2025-12-16 10:56 Brain404 阅读(28) 评论(0) 推荐(0)
摘要: LIMR(25.02,SJTU):从大数据集里面挑出小数据集。方法: 1. 计算第k步中所有样本平均奖励的变化情况(跑一小步就可以) 2. 对于第i个样本,计算其奖励和平均奖励曲线的对齐程度 3. 选出对齐程度高的样本作为训练样本 缺点:没有办法从大样本集合中选出高质量样本 DAPO:进行动态采样 阅读全文
posted @ 2025-12-15 18:29 Brain404 阅读(7) 评论(0) 推荐(0)