Brain404 - 博客园

2025年12月21日

摘要：参考资料：首先，看verl的官方文档，了解基础知识看知乎，了解主要代码关于AgentLoop的信息，详见这篇博客看Verl AgentLoop论文笔记待整理阅读全文

posted @ 2025-12-21 17:36 Brain404 阅读(26) 评论(0) 推荐(0)

摘要：当我们训练好了一个verl 检查点之后，如何用它来评估我们在测试集上的指标？特别是涉及到工具调用的Agent训练，如果直接部署API，那么还需要搭建ReAct流，开发成本比较大。个人觉得比较简单的一种方法为：将测试集处理为verl 适配的parquet文件格式开发对应的奖励函数（一般直接复用阅读全文

posted @ 2025-12-21 12:55 Brain404 阅读(22) 评论(0) 推荐(0)

Verl 如何增加配置参数？

摘要： RL参数配置当我们运行python -m verl.trainer.main_ppo时，文件的主函数为： @hydra.main(config_path="config", config_name="_generated_ppo_trainer", version_base=None) def m 阅读全文

posted @ 2025-12-21 12:44 Brain404 阅读(22) 评论(0) 推荐(0)

parallel-muse：Agentic并行思维用于深度信息探索

摘要：团队：tongyi 时间：25.10 领域：deepsearch的tts（测试时缩放策略）发现1: 对于deepsearch来说，推理+工具调用token的PPL，发现：探索token（工具调用的token）在一开始达到峰值，此时模型必须在先验知识最少的情况下探索环境。与之相对，推理不确定性稍晚一阅读全文

posted @ 2025-12-21 09:34 Brain404 阅读(9) 评论(0) 推荐(0)

2025年12月20日

SFTDataset：Verl 单轮Dataset vs Verl 多轮Dataset vs Parallel-R1 Dataset

摘要：使用verl进行sft的命令大致为：单机多卡： #!/bin/bash set -x nproc_per_node=4 save_path="./checkpoints" torchrun --standalone --nnodes=1 --nproc_per_node=$nproc_per_no 阅读全文

posted @ 2025-12-20 22:01 Brain404 阅读(28) 评论(0) 推荐(0)

AgentLoop（Verl）vs ParallelThinkingAgentLoopV3（Parallel-R1） vs ToRL

摘要：最近看到了一篇很有意思的论文Parallel-R1，是用RL训练一个并行推理的模型，大概的格式为： <模型推理过程> 突然生成一个<parallel>，进入多路径推理 <parallel> <path> ... </path> 每一条推理路径之间互相不可见（使用attention mask mask 阅读全文

posted @ 2025-12-20 21:49 Brain404 阅读(26) 评论(0) 推荐(0)

RLLM工具：Python 沙箱（LCB沙箱）

摘要：主函数定义在/rllm/tools/code_tools/python_interpreter.py中 def _init_backend(self): """初始化沙箱""" # 默认使用LCBPythonInterpreter if self.backend_type == "local": s 阅读全文

posted @ 2025-12-20 17:45 Brain404 阅读(8) 评论(0) 推荐(0)

2025年12月16日

Reinforce-Rej

摘要：机构：Salesforce AI Research 链接：https://arxiv.org/abs/2504.11343 alpharxiv🌟：1200+ insight 在这项工作中，我们从一种类似于增强的算法视角重新审视GRPO 并分析其核心组件。令人惊讶的是，我们发现一个简单的拒绝采样基阅读全文

posted @ 2025-12-16 14:00 Brain404 阅读(14) 评论(0) 推荐(0)

VERL-GRPO实现

摘要： VERL-GRPO 源码分析脚本为verl v0.5.0中的快速开始脚本 # Tested successfully on the hiyouga/verl:ngc-th2.6.0-cu126-vllm0.8.4-flashinfer0.2.2-cxx11abi0 image. # It outp 阅读全文

posted @ 2025-12-16 10:56 Brain404 阅读(28) 评论(0) 推荐(0)

2025年12月15日

【调研报告】RL有哪些数据技巧？

摘要： LIMR（25.02，SJTU）：从大数据集里面挑出小数据集。方法： 1. 计算第k步中所有样本平均奖励的变化情况（跑一小步就可以） 2. 对于第i个样本，计算其奖励和平均奖励曲线的对齐程度 3. 选出对齐程度高的样本作为训练样本缺点：没有办法从大样本集合中选出高质量样本 DAPO：进行动态采样阅读全文

posted @ 2025-12-15 18:29 Brain404 阅读(7) 评论(0) 推荐(0)

rh-li

公告