机器学习（三十六）— KL散度不对称讨论

问题：如果分布P和Q，KL(P||Q)很大而KL(Q||P)很小表示什么现象？

还是看定义吧。
$KL(P||Q) = \sum_i P(i) \log \left(P(i) \over Q(i)\right)$
直观来说，这是对随机变量的每个取值上， $\log(P(i)/Q(i))$ 这个值的加权平均。这里加权的权值是 $P(i)$ （其实就是算了个期望）。

在 $P(i)$ 大的地方，想让KL散度小，我们需要让 $Q(i)$ 的值尽量也大；而当 $P(i)$ 本身小的时候， $Q(i)$ 对整个KL的影响却没有那么大（因为log项本身因为分子就很小，再加上乘以了很小的 $P(i)$ ）。直观来说就是，在P的概率密度大的地方，它应该尽量和Q概率密度大的区域保持一致以保证KL散度小，而在P概率密度很小的地方，P和Q的差别对KL的影响很小。

画图来说（懒得画了），就是P高的地方应该和Q的形状尽量一致，但P低的地方就无所谓了。的解释可能更接近信息论受众的理解，我这里试着给一个概率的理解：
* KL(P||Q) 很大，意味着在P事件大概率时，Q事件不一定有大概率；
* KL(Q||P) 很小，意味着当Q事件有大概率时，P事件同样有大概率。
造成这种现象的一种可能的成因是：Q是造成P的多种原因之一，所以当Q发生时（高概率），P也发生（高概率）；而P还有其他的成因，所以当P发生时，Q不一定会发生。当然理解成从属/包含关系也是另一种可行的思路：Q是P的子集，所以Q发生时P一定发生，而P发生时，有可能是P\Q中的某些事件发生了，所以Q不一定发生。

参考文献：知乎回答

posted @ 2021-06-09 20:41 深度机器学习阅读(834) 评论(0) 收藏举报

刷新页面返回顶部

深度机器学习

机器学习（三十六）— KL散度不对称讨论

问题：如果分布P和Q，KL(P||Q)很大而KL(Q||P)很小表示什么现象？

公告