摘要:
参考资料: 首先,看verl的官方文档,了解基础知识 看知乎,了解主要代码 关于AgentLoop的信息,详见这篇博客 看Verl AgentLoop论文 笔记待整理 阅读全文
posted @ 2025-12-21 17:36
Brain404
阅读(26)
评论(0)
推荐(0)
摘要:
当我们训练好了一个verl 检查点之后,如何用它来评估我们在测试集上的指标? 特别是涉及到工具调用的Agent训练,如果直接部署API,那么还需要搭建ReAct流,开发成本比较大。 个人觉得比较简单的一种方法为: 将测试集处理为verl 适配的parquet文件格式 开发对应的奖励函数(一般直接复用 阅读全文
posted @ 2025-12-21 12:55
Brain404
阅读(22)
评论(0)
推荐(0)
摘要:
RL参数配置 当我们运行python -m verl.trainer.main_ppo时,文件的主函数为: @hydra.main(config_path="config", config_name="_generated_ppo_trainer", version_base=None) def m 阅读全文
posted @ 2025-12-21 12:44
Brain404
阅读(22)
评论(0)
推荐(0)
摘要:
团队:tongyi 时间:25.10 领域:deepsearch的tts(测试时缩放策略) 发现1: 对于deepsearch来说,推理+工具调用token的PPL,发现:探索token(工具调用的token)在一开始达到峰值,此时模型必须在先验知识最少的情况下探索环境。与之相对,推理不确定性稍晚一 阅读全文
posted @ 2025-12-21 09:34
Brain404
阅读(9)
评论(0)
推荐(0)

浙公网安备 33010602011771号