熵,信息增益,基尼指数
1.熵
信息量是对信息的度量,信息的大小跟随机事件的概率有关,越小概率的事情发生了产生的信息量越大。
信息量度量的是一个具体事件发生了所带来的信息,而熵则是在结果出来之前对可能产生的信息量的期望,考虑该随机变量的所有可能取值,即所有可能发生事件所带来的信 息量的期望。即
$H(x)=-\sum_{i=1}^{n}p(x_{i})log^{p(x^{i})}$
2.条件熵
条件熵定义为X给定条件下,Y的条件概率分布的熵对X的数学期望。条件熵H(Y|X)表示在已知随机变量X的条件下随机变量Y的不确定性。
随机变量X给定的条件下随机变量Y的条件熵H(Y|X)。
注:这个条件熵,是指在给定某个数(某个变量为某个值)的情况下,另一个变量的熵是多少。因为条件熵中X也是一个变量,
意思是在一个变量X的条件下(变量X的每个值都会取),另一个变量Y熵对X的期望。
$H(X|Y)=\sum_{x\varepsilon X}^{}p(x)H(Y|X=x)$
$=-\sum_{x\varepsilon X}^{}\sum_{y\varepsilon Y}p(x)p(y|x)log^{p(y|x)}$
$=-\sum_{x\varepsilon X}^{}\sum_{y\varepsilon Y}p(x,y)log^{p(y|x)}$
$ =-\sum_{x\varepsilon X,y\varepsilon Y}^{}p(x,y)log^{p(y|x)}$
$=-\sum_{x\varepsilon X,y\varepsilon Y}^{}p(x,y)log^{\frac{p(x,y)}{p(x)}}$
$=\sum_{x\varepsilon X,y\varepsilon Y}^{}p(x,y)log^{\frac{p(x)}{p(x,y)}}$
3.信息增益(Infomation Gain)
信息增益代表了在一个条件下,信息复杂度(不确定性)减少的程度。
$IG(X;Y)=H(Y)-H(Y|X)$
$=\sum_{x\varepsilon X,y\varepsilon Y}^{}p(x,y)log^{\frac{p(x,y)}{p(x)p(y)}}$
在决策树算法中,我们的关键就是每次选择一个特征,特征有多个,那么到底按照什么标准来选择哪一个特征。如果选择一个特征后,
信息增益最大(信息不确定性减少的程度最大),那么我们就选取这个特征。
4.基尼指数
基尼指数(基尼不纯度):表示在样本集合中一个随机选中的样本被分错的概率。假设有k个类,样本点属于第 i 类的概率为$p_{i}$,则概率分布的基尼指数定义为:
gini=$\sum_{i=1}^{k}p_{i}(1-p_{i})=1-\sum_{i=1}^{k}p_{i}^{2}$ , 其中$\sum_{i=1}^{k}p_{i}=1$
从上面的公式可以得出,当$p_{1}=p_{2}=\cdots =p_{k}=\frac{1}{k}$式,得到最大gini, $gini_{max}=log^{k}$
注: gini指数越小表示集合中被选中的样本被分错的概率越小,也就是说集合的纯度越高,反之,集合越不纯。

浙公网安备 33010602011771号