摘要: 参考资料: 首先,看verl的官方文档,了解基础知识 看知乎,了解主要代码 关于AgentLoop的信息,详见这篇博客 看Verl AgentLoop论文 笔记待整理 阅读全文
posted @ 2025-12-21 17:36 Brain404 阅读(30) 评论(0) 推荐(0)
摘要: 当我们训练好了一个verl 检查点之后,如何用它来评估我们在测试集上的指标? 特别是涉及到工具调用的Agent训练,如果直接部署API,那么还需要搭建ReAct流,开发成本比较大。 个人觉得比较简单的一种方法为: 将测试集处理为verl 适配的parquet文件格式 开发对应的奖励函数(一般直接复用 阅读全文
posted @ 2025-12-21 12:55 Brain404 阅读(28) 评论(0) 推荐(0)
摘要: RL参数配置 当我们运行python -m verl.trainer.main_ppo时,文件的主函数为: @hydra.main(config_path="config", config_name="_generated_ppo_trainer", version_base=None) def m 阅读全文
posted @ 2025-12-21 12:44 Brain404 阅读(24) 评论(0) 推荐(0)
摘要: 团队:tongyi 时间:25.10 领域:deepsearch的tts(测试时缩放策略) 发现1: 对于deepsearch来说,推理+工具调用token的PPL,发现:探索token(工具调用的token)在一开始达到峰值,此时模型必须在先验知识最少的情况下探索环境。与之相对,推理不确定性稍晚一 阅读全文
posted @ 2025-12-21 09:34 Brain404 阅读(9) 评论(0) 推荐(0)