摘要: http://joschu.net/blog/kl-approx.html KL近似计算代码: https://github.com/THUDM/slime/blob/main/slime/utils/ppo_utils.py KL 散度定义 标准的 k1 估计KL 散度, 方差大, 应为k1 有正 阅读全文
posted @ 2025-10-29 14:49 bregman 阅读(4) 评论(0) 推荐(0)