2025年9月3日

verl中RL训练中需要关注那些训练指标

摘要: 在 VERL(可能是指基于强化学习的视觉 - 语言或多模态任务训练框架)的 RL 训练中,需要关注的核心指标可分为训练过程指标和任务性能指标两类。结合你提供的日志信息(包含policy_loss、kl_loss、reward等),具体说明如下: 一、核心训练过程指标(从日志中可见) 策略损失(pol 阅读全文

posted @ 2025-09-03 18:14 limingqi 阅读(124) 评论(0) 推荐(0)

导航