机器学习(三十六)— KL散度不对称讨论

问题:如果分布P和Q,KL(P||Q)很大而KL(Q||P)很小表示什么现象?

还是看定义吧。
[公式]
直观来说,这是对随机变量的每个取值上,[公式]这个值的加权平均。这里加权的权值是[公式] (其实就是算了个期望)。

[公式]大的地方,想让KL散度小,我们需要让[公式]的值尽量也大;而当[公式]本身小的时候,[公式]对整个KL的影响却没有那么大(因为log项本身因为分子就很小,再加上乘以了很小的[公式])。直观来说就是,在P的概率密度大的地方,它应该尽量和Q概率密度大的区域保持一致以保证KL散度小,而在P概率密度很小的地方,P和Q的差别对KL的影响很小。

画图来说(懒得画了),就是P高的地方应该和Q的形状尽量一致,但P低的地方就无所谓了。 的解释可能更接近信息论受众的理解,我这里试着给一个概率的理解:
* KL(P||Q) 很大,意味着在P事件大概率时,Q事件不一定有大概率;
* KL(Q||P) 很小,意味着当Q事件有大概率时,P事件同样有大概率。
造成这种现象的一种可能的成因是:Q是造成P的多种原因之一,所以当Q发生时(高概率),P也发生(高概率);而P还有其他的成因,所以当P发生时,Q不一定会发生。当然理解成从属/包含关系也是另一种可行的思路:Q是P的子集,所以Q发生时P一定发生,而P发生时,有可能是P\Q中的某些事件发生了,所以Q不一定发生。

 

参考文献:知乎回答

posted @ 2021-06-09 20:41  深度机器学习  阅读(491)  评论(0编辑  收藏  举报