2025 年 12月 21 日随笔档案 - Brain404

2025年12月21日

摘要：参考资料：首先，看verl的官方文档，了解基础知识看知乎，了解主要代码关于AgentLoop的信息，详见这篇博客看Verl AgentLoop论文笔记待整理阅读全文

posted @ 2025-12-21 17:36 Brain404 阅读(30) 评论(0) 推荐(0)

摘要：当我们训练好了一个verl 检查点之后，如何用它来评估我们在测试集上的指标？特别是涉及到工具调用的Agent训练，如果直接部署API，那么还需要搭建ReAct流，开发成本比较大。个人觉得比较简单的一种方法为：将测试集处理为verl 适配的parquet文件格式开发对应的奖励函数（一般直接复用阅读全文

posted @ 2025-12-21 12:55 Brain404 阅读(28) 评论(0) 推荐(0)

Verl 如何增加配置参数？

摘要： RL参数配置当我们运行python -m verl.trainer.main_ppo时，文件的主函数为： @hydra.main(config_path="config", config_name="_generated_ppo_trainer", version_base=None) def m 阅读全文

posted @ 2025-12-21 12:44 Brain404 阅读(24) 评论(0) 推荐(0)

parallel-muse：Agentic并行思维用于深度信息探索

摘要：团队：tongyi 时间：25.10 领域：deepsearch的tts（测试时缩放策略）发现1: 对于deepsearch来说，推理+工具调用token的PPL，发现：探索token（工具调用的token）在一开始达到峰值，此时模型必须在先验知识最少的情况下探索环境。与之相对，推理不确定性稍晚一阅读全文

posted @ 2025-12-21 09:34 Brain404 阅读(9) 评论(0) 推荐(0)

rh-li

公告