信息熵

如何衡量一个集合的混乱程度。假设集合有n个元素,如果n个元素都是不同的,那么集合可以说是最混乱的了,如果n个元素都是相同的,那么可以说集合是最纯净的了,如下公式可以衡量这种混乱程度。

假设集合可以分成n类,每类的个数为ci个,那么就可以用上述公式衡量该集合的混乱程度了。当集合仅有1类时,很容易得到如下结果 E = 0;当集合有n类时,那么E=-logP(1/n)=log(n),此时是混乱程度最大的时候。上述公式是信息熵的公式,由香农提出。

在决策树机器学习算法中,信息熵用来挑选分隔训练样例的最好特征。其主要方式是用特征把训练样例分开,计算前后信息熵的变化(也成信息增益),信息增益越大表示该特征越合理,最终挑选信息增益最大的特征作为决策使用的特征。

仔细研究以下两个集合,

{11111111110000000000},

{10101010101010101010},

它们的信息熵是相同的,但显然前者比后者更纯净,因为前者的1都在前面,而后者1与0相互交叉。从这个角度上来说,信息熵的计算方法丢弃了的信息。换个角度说,信息熵的适用范围是无序的集合。

posted on 2012-12-15 18:17  yminus  阅读(312)  评论(0)    收藏  举报

导航