信息论和数理统计——机器学习基础

一、信息论
二、数理统计

一、信息论

信息论处理的是客观世界中的不确定性。
通信的基本问题是在一点精确地或近似地复现在另一点所选取的消息。在生活中，信息的载体是消息。
不同的消息带来的信息在直观感觉上不是完全相同的，比如“马云获得奥赛健美冠军”比“施瓦辛格获得奥赛健美冠军”的信息要大得多。
因为前者是小概率事件，而后者我们已经习以为常。不确定性越大的消息提供的信息量越大。

熵

一个系统内在的混乱程度

信源

产生消息（符号）、消息序列和连续消息的来源。

信息量

信息多少的量度
在信息论中，如果事件A发生的概率为$p(A)$，则这个事件的自信息量定义为
$h(A)=−log_2p(A)$
比如：当$p(A$)为1/1000得出信息量约为10，当$p(A)$为1/2得出的信息量约为1

信息熵

信息熵是信源可能发出的各个符号的自信息量在信源构成的概率空间上的统计平均值。
根据单个事件的自信息量可以计算包含各个符号的信源的信息熵
如果一个离散信源X包含n个符号，每个符号$a_i$的取值为$p(a_i)$，则X的信源熵为
$H(X)=− \sum_{i=1}^np(a_i)log_2p(a_i)$

条件熵

在概率论中有条件概率的概念，将条件概率扩展到信息论中，就可以得到条件熵。
如果两个信源之间具有相关性，那么在已知其中一个信源X的条件下，另一个信源熵就会减小。
条件熵$H(Y∣X)$表示的是在已知随机变量$X$的条件下，另一个随机变量$Y$的不确定性，也就是在给定$X$时，根据$Y$的条件概率计算出的熵再对$X$求数学期望

$ H(Y|X)=\sum_{i=1}^np(x_i)H(Y|X=x_i) $

$=-\sum_{i=1}^np(x_i)\sum_{j=1}^mp(y_i|x_i)log_2p(y_i|x_i)$

$=-\sum_{i=1}^n\sum_{j=1}^np(x_i,y_i)log_2p(y_j|x_i)$

条件熵的意义在于先按照变量$X$的取值对变量Y进行了一次分类，对每个分出来的类别计算其单独的信息熵，再将每个类的信息熵按照$X$的分布计算其数学期望。

信息增益

在机器学习中，信息增益描述了一个特征带来的信息量的多少，常于分类特征的选择，也叫互信息

信息增益=信息熵-条件熵

假设存在一个随机变量$X$，和另外一个随机变量$Y$，那他们的信息增益是

$I(X;Y)=H(Y)-H(Y|X)$

可以理解为X给Y带来的信息增益。
对于给定的训练数据集$Y$，$H(Y)$表示在未给定任何特征时，对训练集进行分类的不确定性
$H(Y|X)$表示了使用特征$X$对训练集$Y$进行分类的不确定性.
信息增益表示的是特征$X$带来的对训练集$Y$分类不确定性的减少程度，也就是特征$X$对于训练集$Y$的区分度。

信息增益比

信息增益值很大程度依赖于数据集的信息熵$H(Y)$，因而不具有绝对意义。为了解决这个问题，研究者提出了信息增益比

$g(X,Y)=I(X;Y)/H(Y)$

相对熵

相对熵也KL散度，用于描述两个不同概率分布之间的差异。指用分布$q$来表示分布$p$额外需要的编码长度。

$D_{KL}(P||Q)=\sum_{i=1}^np(x_i)log_2\frac{p(x_i)}{q(x_i)}$

交叉熵

交叉熵，描述的是真实数据分布和非真实数据分布的差异性。指用分布$q$来表示分布$p$的平均编码长度。

假设p(x)和q(x)是两上离散分布，则两者的交叉熵可以表示为

$H(p,q)=-\sum_{i=1}^np(x_i)logq(x_i)$

在神经网络中，交叉熵可作为损失函数，p表示真实分布，q为预测分布，交叉熵损失函数可以衡量p与q的相似性。在使用sigmoid函数在梯度下降时能避免均方误差损失函数学习速率降低的问题。
在特征工程中，可以用来衡量两个随机变量之间的相似度。
在语言模型中（NLP）中，由于真实的分布p是未知的，在语言模型中，模型是通过训练集得到的，交叉熵就是衡量这个模型在测试集上的正确率。

最大熵原理

在只掌握未知分布的部分知识时，应该选取符合这这些知识但熵值最大的概率分布。
最大熵原理实质是满足已知的知识前提下，对于未知的分布应该是自己最不能确定或最随机的分布，因为只有这样，最终的分布才能代表一个最公平的选择。

信息论使用“信息熵”的概念，对单个信源的信息量和通信中传递信息的数量与效率等问题做出了解释，并在世界的不确定性和信息的可测量性之间搭建起一座桥梁

二、数理统计

数理统计（mathematical statistics）的任务是根据可观察的样本反过来推断总体的性质
推断的工具是统计量，统计量是样本的函数，是个随机变量
数理统计根据观察或实验得到的数据来研究随机现象，并对研究对象的客观规律做出合理的估计和判断。
基础的统计理论有助于对机器学习的算法和数据挖掘的结果做出解释，只有做出合理的解释，数据的价值才能够体现。

泛化能力：模型用于不属于测试集的新样本的能力。泛化能力越强，学习器越好

与概率论的区别

概率论在找下一个点，数理统计则是局部推整体

概率论作用的前提是随机变量的分布已知，根据已知的分布来分析随机变量的特征和规律；
数理统计的研究对象是未知分布的随机变量，研究方法是对随机变量进行独立重复的观察，根据得到的观察对原始分布做出推断。
数理统计可以看成是逆向的概率论，更偏向于从理论角度研究方法论，进而探讨如何应用

以买彩票为例

概率论解决的是根据已知的摇奖规律判断一注号码中奖的可能性
数理统计解决的是根据之前多次中奖/不中奖的号码记录以一定的精确性推测摇奖的规律，虽然可能没什么用。

统计推断方式一：参数估计

参数估计通过随机抽取的样本来估计总体分布的未知参数，包括点估计和区间估计

点估计（point estimation）
具体的方法包括矩估计法（method of monents）和最大似然估计法（maximum likelihood estimation）
两种方法都代表了推断总体参数的思路，但是对于同一个参数，用不同的估计方法求出的估计量很可能存在差异，这通常用无偏性、有效性、一致性来评价
区间估计（interval estimation）
区间估计相当于在点估计的基础上进一步提供了取值范围和误差界限

统计推断方式二：假设检验

通过随机抽取的样本来接受或拒绝关于总体的某个判断

假设检测的作用是根据学习器在测试集上的性能推断其泛化能力的强弱，并确定所得结论的精确程度，可以进一步推广为比较不同学习器的性能。

泛化性误差的构成可以为三部分：

偏差（bias）
算法预测值和真实结果之间的偏离程度，刻画的是模型的欠拟合特征
方差（variance）
表示数据的扰动对预测性能的影响，刻画的是模型的过拟合特性
噪声（noise）
表示当前学习任务上能够达到的最小泛化误差，刻画的是任务本身的难度

posted @ 2020-03-26 21:52 雪山飞猪阅读(1337) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

无涯

内心强大才是一个男人真正的强大