摘要: KL散度(Kullback-Leibler Divergence)是用来度量两个概率分布相似度的指标,是经典损失函数,应用于PPO等算法参数估计设计。 KL散度的定义 假设对随机变量\(\xi\),存在两个概率分布P和Q。如果\(\xi\)为离散变量,则定义从P到Q的KL散度为: \[D_{KL}( 阅读全文
posted @ 2025-01-15 21:56 霜尘FrostDust 阅读(1193) 评论(0) 推荐(0)