熵,信息增益,基尼指数

1.熵

    信息量是对信息的度量,信息的大小跟随机事件的概率有关,越小概率的事情发生了产生的信息量越大。

   信息量度量的是一个具体事件发生了所带来的信息,而熵则是在结果出来之前对可能产生的信息量的期望,考虑该随机变量的所有可能取值,即所有可能发生事件所带来的信     息量的期望。即

            $H(x)=-\sum_{i=1}^{n}p(x_{i})log^{p(x^{i})}$

2.条件熵

      条件熵定义为X给定条件下,Y的条件概率分布的熵对X的数学期望。条件熵H(Y|X)表示在已知随机变量X的条件下随机变量Y的不确定性。

       随机变量X给定的条件下随机变量Y的条件熵H(Y|X)。

       注:这个条件熵,是指在给定某个数(某个变量为某个值)的情况下,另一个变量的熵是多少。因为条件熵中X也是一个变量,

        意思是在一个变量X的条件下(变量X的每个值都会取),另一个变量Y熵对X的期望。

       $H(X|Y)=\sum_{x\varepsilon X}^{}p(x)H(Y|X=x)$

                     $=-\sum_{x\varepsilon X}^{}\sum_{y\varepsilon Y}p(x)p(y|x)log^{p(y|x)}$

                     $=-\sum_{x\varepsilon X}^{}\sum_{y\varepsilon Y}p(x,y)log^{p(y|x)}$

                     $ =-\sum_{x\varepsilon X,y\varepsilon Y}^{}p(x,y)log^{p(y|x)}$

                     $=-\sum_{x\varepsilon X,y\varepsilon Y}^{}p(x,y)log^{\frac{p(x,y)}{p(x)}}$

                     $=\sum_{x\varepsilon X,y\varepsilon Y}^{}p(x,y)log^{\frac{p(x)}{p(x,y)}}$

 

3.信息增益(Infomation Gain)

    信息增益代表了在一个条件下,信息复杂度(不确定性)减少的程度。

 

                $IG(X;Y)=H(Y)-H(Y|X)$   

                            $=\sum_{x\varepsilon X,y\varepsilon Y}^{}p(x,y)log^{\frac{p(x,y)}{p(x)p(y)}}$

 

    在决策树算法中,我们的关键就是每次选择一个特征,特征有多个,那么到底按照什么标准来选择哪一个特征。如果选择一个特征后,

    信息增益最大(信息不确定性减少的程度最大),那么我们就选取这个特征。

 

4.基尼指数

      基尼指数(基尼不纯度):表示在样本集合中一个随机选中的样本被分错的概率。假设有k个类,样本点属于第 i 类的概率为$p_{i}$,则概率分布的基尼指数定义为:

      gini=$\sum_{i=1}^{k}p_{i}(1-p_{i})=1-\sum_{i=1}^{k}p_{i}^{2}$ , 其中$\sum_{i=1}^{k}p_{i}=1$

       从上面的公式可以得出,当$p_{1}=p_{2}=\cdots =p_{k}=\frac{1}{k}$式,得到最大gini, $gini_{max}=log^{k}$

     注: gini指数越小表示集合中被选中的样本被分错的概率越小,也就是说集合的纯度越高,反之,集合越不纯。

      

posted @ 2020-10-21 21:56  流年记忆  阅读(479)  评论(0)    收藏  举报