熵、信息增益

在决策树算法中有对熵,信息增益的运用,通过查询资料学习了,为了方便查阅,做一些笔记,如果有误,请大家包涵并指出。

是信息的期望值:

H(X)=i=1np(xi)logp(xi)(1)

熵只依赖X的分布,和X的取值没有关系,熵是用来度量不确定性,当熵越大,概率说X=xi的不确定性越大,反之越小,在机器学期中分类中说,熵越大即这个类别的不确定性更大,反之越小。

条件熵

条件熵是用来解释信息增益而引入的概念,概率定义:随机变量X在给定条件下随机变量Y的条件熵,对定义描述为:X给定条件下Y的条件干率分布的熵对X的数学期望,在机器学习中为选定某个特征后的熵,公式如下:

H(Y|X)=xp(x)H(Y|X=x)(2)

信息增益

信息增益在决策树算法中是用来选择特征的指标,信息增益越大,则这个特征的选择性越好,在概率中定义为:待分类的集合的熵和选定某个特征的条件熵之差(这里只的是经验熵或经验条件熵,由于真正的熵并不知道,是根据样本计算出来的),公式如下:

IG(Y|X)=H(Y)H(Y|X)(3)

posted @ 2017-08-24 10:13  弘一  阅读(183)  评论(0)    收藏  举报