熵，信息增益，基尼指数

1.熵

信息量是对信息的度量，信息的大小跟随机事件的概率有关，越小概率的事情发生了产生的信息量越大。

信息量度量的是一个具体事件发生了所带来的信息，而熵则是在结果出来之前对可能产生的信息量的期望，考虑该随机变量的所有可能取值，即所有可能发生事件所带来的信息量的期望。即

　　　　　　　　　　　　$H(x)=-\sum_{i=1}^{n}p(x_{i})log^{p(x^{i})}$

2.条件熵

条件熵定义为X给定条件下，Y的条件概率分布的熵对X的数学期望。条件熵H（Y|X）表示在已知随机变量X的条件下随机变量Y的不确定性。

随机变量X给定的条件下随机变量Y的条件熵H(Y|X)。

注：这个条件熵，是指在给定某个数（某个变量为某个值）的情况下，另一个变量的熵是多少。因为条件熵中X也是一个变量，

意思是在一个变量X的条件下（变量X的每个值都会取），另一个变量Y熵对X的期望。

$H(X|Y)=\sum_{x\varepsilon X}^{}p(x)H(Y|X=x)$

$=-\sum_{x\varepsilon X}^{}\sum_{y\varepsilon Y}p(x)p(y|x)log^{p(y|x)}$

$=-\sum_{x\varepsilon X}^{}\sum_{y\varepsilon Y}p(x,y)log^{p(y|x)}$

$ =-\sum_{x\varepsilon X,y\varepsilon Y}^{}p(x,y)log^{p(y|x)}$

$=-\sum_{x\varepsilon X,y\varepsilon Y}^{}p(x,y)log^{\frac{p(x,y)}{p(x)}}$

$=\sum_{x\varepsilon X,y\varepsilon Y}^{}p(x,y)log^{\frac{p(x)}{p(x,y)}}$

3.信息增益(Infomation Gain)

信息增益代表了在一个条件下，信息复杂度（不确定性）减少的程度。

$IG(X;Y)=H(Y)-H(Y|X)$

$=\sum_{x\varepsilon X,y\varepsilon Y}^{}p(x,y)log^{\frac{p(x,y)}{p(x)p(y)}}$

在决策树算法中，我们的关键就是每次选择一个特征，特征有多个，那么到底按照什么标准来选择哪一个特征。如果选择一个特征后，

信息增益最大（信息不确定性减少的程度最大），那么我们就选取这个特征。

4.基尼指数

基尼指数(基尼不纯度)：表示在样本集合中一个随机选中的样本被分错的概率。假设有k个类，样本点属于第 i 类的概率为$p_{i}$，则概率分布的基尼指数定义为：

gini=$\sum_{i=1}^{k}p_{i}(1-p_{i})=1-\sum_{i=1}^{k}p_{i}^{2}$ , 其中$\sum_{i=1}^{k}p_{i}=1$

从上面的公式可以得出，当$p_{1}=p_{2}=\cdots =p_{k}=\frac{1}{k}$式，得到最大gini, $gini_{max}=log^{k}$

注： gini指数越小表示集合中被选中的样本被分错的概率越小，也就是说集合的纯度越高，反之，集合越不纯。

posted @ 2020-10-21 21:56 流年记忆阅读(479) 评论(0) 收藏举报

刷新页面返回顶部

流年记忆