2025年9月11日

verl中的RL训练过程中评估指标

摘要: 在 Verl 框架的 RL 训练中,评估训练过程与结尾的核心指标需围绕 “训练稳定性”“策略收敛性”“任务效果”“资源效率” 四大维度展开,结合框架内置的日志、TensorBoard 监控及自定义验证逻辑实现。以下是具体的评估方法、关键指标解读及操作步骤: 一、核心评估维度与关键指标(过程 + 结尾 阅读全文

posted @ 2025-09-11 16:30 limingqi 阅读(249) 评论(0) 推荐(0)

导航