熵、信息增益

在决策树算法中有对熵，信息增益的运用，通过查询资料学习了，为了方便查阅，做一些笔记，如果有误，请大家包涵并指出。

熵是信息的期望值：

H (X) = \sum i = 1 n - p (x i) log p (x i) (1)

熵只依赖X的分布，和X的取值没有关系，熵是用来度量不确定性，当熵越大，概率说X=xi的不确定性越大，反之越小，在机器学期中分类中说，熵越大即这个类别的不确定性更大，反之越小。

条件熵是用来解释信息增益而引入的概念，概率定义：随机变量X在给定条件下随机变量Y的条件熵，对定义描述为：X给定条件下Y的条件干率分布的熵对X的数学期望，在机器学习中为选定某个特征后的熵，公式如下：

H (Y | X) = \sum x p (x) H (Y | X = x) (2)

信息增益在决策树算法中是用来选择特征的指标，信息增益越大，则这个特征的选择性越好，在概率中定义为：待分类的集合的熵和选定某个特征的条件熵之差（这里只的是经验熵或经验条件熵，由于真正的熵并不知道，是根据样本计算出来的），公式如下:

I G (Y | X) = H (Y) - H (Y | X) (3)

posted @ 2017-08-24 10:13 弘一阅读(189) 评论(0) 收藏举报

刷新页面返回顶部

弘一的花园