机器学习中规则化和模型选择知识
1 问题
     模型选择问题:对于一个学习问题,可以有多种模型选择。比如要拟合一组样本点,可以使用线性回归 ,也可以用多项式回归
,也可以用多项式回归 。那么使用哪种模型好呢(能够在偏差和方差之间达到平衡最优)?
。那么使用哪种模型好呢(能够在偏差和方差之间达到平衡最优)?
     还有一类参数选择问题:如果我们想使用带权值的回归模型,那么怎么选择权重w公式里的参数 ?
?
形式化定义:假设可选的模型集合是 ,比如我们想分类,那么SVM、logistic回归、神经网络等模型都包含在M中。
,比如我们想分类,那么SVM、logistic回归、神经网络等模型都包含在M中。
2 交叉验证(Cross validation)
我们的第一个任务就是要从M中选择最好的模型。
假设训练集使用S来表示
如果我们想使用经验风险最小化来度量模型的好坏,那么我们可以这样来选择模型:
| 1、 使用S来训练每一个 2、 选择错误率最小的假设函数。 | 
遗憾的是这个算法不可行,比如我们需要拟合一些样本点,使用高阶的多项式回归肯定比线性回归错误率要小,偏差小,但是方差却很大,会过度拟合。因此,我们改进算法如下:
这种方法称为hold-out cross validation或者称为简单交叉验证。
     由于测试集是和训练集中是两个世界的,因此我们可以认为这里的经验错误![clip_image022[2] clip_image022[2]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/20110327115002862.png) 接近于泛化错误(generalization error)。这里测试集的比例一般占全部数据的1/4-1/3。30%是典型值。
接近于泛化错误(generalization error)。这里测试集的比例一般占全部数据的1/4-1/3。30%是典型值。
     还可以对模型作改进,当选出最佳的模型![clip_image010[2] clip_image010[2]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/201103271150024384.png) 后,再在全部数据S上做一次训练,显然训练数据越多,模型参数越准确。
后,再在全部数据S上做一次训练,显然训练数据越多,模型参数越准确。
简单交叉验证方法的弱点在于得到的最佳模型是在70%的训练数据上选出来的,不代表在全部训练数据上是最佳的。还有当训练数据本来就很少时,再分出测试集后,训练数据就太少了。
我们对简单交叉验证方法再做一次改进,如下:
| 1、 将全部训练集S分成k个不相交的子集,假设S中的训练样例个数为m,那么每一个子集有m/k个训练样例,相应的子集称作{ 2、 每次从模型集合M中拿出来一个 { | 
这个方法称为k-fold cross validation(k-折叠交叉验证)。说白了,这个方法就是将简单交叉验证的测试集改为1/k,每个模型训练k次,测试k次,错误率为k次的平均。一般讲k取值为10。这样数据稀疏时基本上也能进行。显然,缺点就是训练和测试次数过多。
极端情况下,k可以取值为m,意味着每次留一个样例做测试,这个称为leave-one-out cross validation。
如果我们发明了一种新的学习模型或者算法,那么可以使用交叉验证来对模型进行评价。比如在NLP中,我们将训练集中分出一部分训练,一部分做测试。
3 特征选择(Feature selection)
     特征选择严格来说也是模型选择中的一种。这里不去辨析他们的关系,重点说明问题。假设我们想对维度为n的样本点进行回归,然而,n可能大多以至于远远大于训练样例数m。但是我们感觉很多特征对于结果是无用的,想剔除n中的无用特征。n个特征就有 种去除情况(每个特征去或者保留),如果我们枚举这些情况,然后利用交叉验证逐一考察在该情况下模型的错误率,太不现实。因此需要一些启发式搜索方法。
种去除情况(每个特征去或者保留),如果我们枚举这些情况,然后利用交叉验证逐一考察在该情况下模型的错误率,太不现实。因此需要一些启发式搜索方法。
第一种,前向搜索:
| 1、 初始化特征集F为空。 2、 扫描i从1到n, 如果F中的特征数达到了n或者预设定的阈值(如果有的话),那么输出整个搜索过程中最好的F,没达到转到2 | 
前向搜索属于wrapper model feature selection。Wrapper这里指不断地使用不同的特征集来测试学习算法。前向搜索说白了就是每次增量地从剩余未选中的特征选出一个加入特征集中,待达到阈值或者n时,从所有的F中选出错误率最小的。
既然有增量加,那么也会有增量减,后者称为后向搜索。先将F设置为{1,2,..,n},然后每次删除一个特征,并评价,直到达到阈值或者为空,然后选择最佳的F。
第二种,过滤特征选择(Filter feature selection):
     过滤特征选择方法的想法是针对每一个特征 ,i从1到n,计算
,i从1到n,计算![clip_image042[1] clip_image042[1]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/201103271150158080.png) 相对于类别标签
相对于类别标签 的信息量
的信息量 ,得到n个结果,然后将n个
,得到n个结果,然后将n个![clip_image046[1] clip_image046[1]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/201103271150174294.png) 按照从大到小排名,输出前k个特征。显然,这样复杂度大大降低,为O(n)。
按照从大到小排名,输出前k个特征。显然,这样复杂度大大降低,为O(n)。
     那么关键问题就是使用什么样的方法来度量![clip_image046[2] clip_image046[2]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/201103271150172276.png) ,我们的目标是选取与y关联最密切的一些
,我们的目标是选取与y关联最密切的一些![clip_image042[2] clip_image042[2]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/201103271150182210.png) 。而y和
。而y和![clip_image042[3] clip_image042[3]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/201103271150188556.png) 都是有概率分布的。因此我们想到使用互信息来度量
都是有概率分布的。因此我们想到使用互信息来度量![clip_image046[3] clip_image046[3]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/201103271150196538.png) ,对于
,对于![clip_image042[4] clip_image042[4]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/201103271150208424.png) 是离散值的情况更适用,不是离散值,将其转变为离散值,方法在第一篇《回归认识》中已经提到。
是离散值的情况更适用,不是离散值,将其转变为离散值,方法在第一篇《回归认识》中已经提到。
互信息(Mutual information)公式:
     当![clip_image042[5] clip_image042[5]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/201103271150203897.png) 是0/1离散值的时候,这个公式如上。很容易推广到
是0/1离散值的时候,这个公式如上。很容易推广到![clip_image042[6] clip_image042[6]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/201103271150217419.png) 是多个离散值的情况。
是多个离散值的情况。
若问这个MI公式如何得来,请看它的KL距离(Kullback-Leibler)表述:
     也就是说,MI衡量的是![clip_image042[7] clip_image042[7]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/201103271150237712.png) 和y的独立性。如果它俩独立(
和y的独立性。如果它俩独立( ),那么KL距离值为0,也就是说
),那么KL距离值为0,也就是说![clip_image042[8] clip_image042[8]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/20110327115024154.png) 和y不相关了,可以去除
和y不相关了,可以去除![clip_image042[9] clip_image042[9]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/2011032711502488.png) 。相反,如果两者密切相关,那么MI值会很大。在对MI进行排名后,最后剩余的问题就是如何选择k值(前k个
。相反,如果两者密切相关,那么MI值会很大。在对MI进行排名后,最后剩余的问题就是如何选择k值(前k个![clip_image042[10] clip_image042[10]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/2011032711502522.png) )。我们继续使用交叉验证的方法,将k从1扫描到n,取最大的F。不过这次复杂度是线性的了。比如,在使用朴素贝叶斯分类文本的时候,词表长度n很大。使用filter特征选择方法,能够增加分类器的精度。
)。我们继续使用交叉验证的方法,将k从1扫描到n,取最大的F。不过这次复杂度是线性的了。比如,在使用朴素贝叶斯分类文本的时候,词表长度n很大。使用filter特征选择方法,能够增加分类器的精度。
4 贝叶斯统计和规则化(Bayesian statistics and regularization)
题目有点绕,说白了就是要找更好的估计方法来减少过度拟合情况的发生。
回顾一下,线性回归中使用的估计方法是最小二乘法,logistic回归是条件概率的最大似然估计,朴素贝叶斯是联合概率的最大似然估计,SVM是二次规划。
以前我们使用的估计方法是最大似然估计(比如在logistic回归中使用的):
注意这里的最大似然估计与维基百科中的表述
http://zh.wikipedia.org/wiki/%E6%9C%80%E5%A4%A7%E5%90%8E%E9%AA%8C%E6%A6%82%E7%8E%87
     有些出入,是因为维基百科只是将样本(观察数据)记为X,然后求P(X)的最大概率。然而,对于我们这里的样本而言,分为特征x和类标签y。我们需要具体计算P(X)。在判别模型(如logistic回归)中,我们看待P(X)=P(x,y)=P(y|x)P(x),而P(x)与 独立无关,因此最后的argmax P(X)由argmaxP(y|x)决定,也就是上式
独立无关,因此最后的argmax P(X)由argmaxP(y|x)决定,也就是上式 。严格来讲
。严格来讲![clip_image061[1] clip_image061[1]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/201103271150279300.png) 并不等于样本X的概率,只是P(X)决定于
并不等于样本X的概率,只是P(X)决定于![clip_image061[2] clip_image061[2]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/201103271150277282.png) ,
,![clip_image061[3] clip_image061[3]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/201103271150287216.png) 最大化时P(X)也最大化。在生成模型,如朴素贝叶斯中,我们看待P(X)=P(y)P(x|y),也就是在某个类标签y下出现特征x的概率与先验概率之积。而P(x|y)在x各个分量是条件独立情况下可以以概率相乘方式计算出,这里根本没有参数
最大化时P(X)也最大化。在生成模型,如朴素贝叶斯中,我们看待P(X)=P(y)P(x|y),也就是在某个类标签y下出现特征x的概率与先验概率之积。而P(x|y)在x各个分量是条件独立情况下可以以概率相乘方式计算出,这里根本没有参数![clip_image059[1] clip_image059[1]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/201103271150299102.png) 。因此最大似然估计直接估计P(x,y)即可,变成了联合分布概率。
。因此最大似然估计直接估计P(x,y)即可,变成了联合分布概率。
     在该上式中,我们视参数![clip_image059[2] clip_image059[2]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/201103271150295448.png) 为未知的常数向量。我们的任务就是估计出未知的
为未知的常数向量。我们的任务就是估计出未知的![clip_image059[3] clip_image059[3]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/201103271150307018.png) 。
。
     从大范围上说,最大似然估计看待![clip_image059[4] clip_image059[4]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/201103271150309776.png) 的视角称为频率学派(frequentist statistics),认为
的视角称为频率学派(frequentist statistics),认为![clip_image059[5] clip_image059[5]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/201103271150311346.png) 不是随机变量,只是一个未知的常量,因此我们没有把
不是随机变量,只是一个未知的常量,因此我们没有把 写成
写成 。
。
     另一种视角称为贝叶斯学派(Bayesian),他们看待![clip_image059[6] clip_image059[6]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/201103271150322643.png) 为随机变量,值未知。既然
为随机变量,值未知。既然![clip_image059[7] clip_image059[7]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/201103271150332577.png) 为随机变量,那么
为随机变量,那么![clip_image059[8] clip_image059[8]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/20110327115033559.png) 不同的值就有了不同的概率
不同的值就有了不同的概率 (称为先验概率),代表我们对特定的
(称为先验概率),代表我们对特定的![clip_image059[9] clip_image059[9]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/201103271150351506.png) 的相信度。我们将训练集表示成
的相信度。我们将训练集表示成 ,i从1到m。我们首先需要求出
,i从1到m。我们首先需要求出![clip_image059[10] clip_image059[10]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/201103271150351789.png) 的后验概率:
的后验概率:
     这个公式的推导其实比较蹊跷。第一步无可厚非,第二步中先看分子,分子中 最完整的表达方式是
最完整的表达方式是 。由于在分母中也会出现
。由于在分母中也会出现 ,所以
,所以![clip_image076[1] clip_image076[1]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/201103271150367197.png) 会被约掉。当然作者压根就没有考虑
会被约掉。当然作者压根就没有考虑![clip_image076[2] clip_image076[2]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/201103271150362180.png) ,因为他看待P(S)的观点就是x->y,而不是(x,y)。再来看分母,分母写成这种形式后,意思是对所有的
,因为他看待P(S)的观点就是x->y,而不是(x,y)。再来看分母,分母写成这种形式后,意思是对所有的 可能值做积分。括号里面的意思是
可能值做积分。括号里面的意思是 ,然后将其展开成分母的模样,从宏观上理解,就是在求每个样例的概率时,先以一定的概率确定
,然后将其展开成分母的模样,从宏观上理解,就是在求每个样例的概率时,先以一定的概率确定![clip_image078[1] clip_image078[1]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/201103271150382572.png) ,然后在
,然后在 和
和![clip_image078[2] clip_image078[2]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/201103271150399931.png) 的作用下再确定
的作用下再确定 的概率。而如果让我推导这个公式,我可能会这样写分母
的概率。而如果让我推导这个公式,我可能会这样写分母 ,这样推导出的结果是
,这样推导出的结果是 。我不知道自己的想法对不对,分歧在于如何看待
。我不知道自己的想法对不对,分歧在于如何看待![clip_image078[3] clip_image078[3]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/201103271150411162.png) ,作者是为每个样例都重新选定
,作者是为每个样例都重新选定![clip_image078[4] clip_image078[4]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/201103271150422732.png) ,而我是对总体样本选择一个
,而我是对总体样本选择一个![clip_image078[5] clip_image078[5]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/20110327115042191.png) 。
。
     ![clip_image065[1] clip_image065[1]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/201103271150423538.png) 在不同的模型下计算方式不同。比如在贝叶斯logistic回归中,
在不同的模型下计算方式不同。比如在贝叶斯logistic回归中,
     在![clip_image059[11] clip_image059[11]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/201103271150433995.png) 是随机变量的情况下,如果新来一个样例特征为x,那么为了预测y。我们可以使用下面的公式:
是随机变量的情况下,如果新来一个样例特征为x,那么为了预测y。我们可以使用下面的公式:
     ![clip_image002[4] clip_image002[4]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/20110327115043582.png) 由前面的公式得到。假若我们要求期望值的话,那么套用求期望的公式即可:
由前面的公式得到。假若我们要求期望值的话,那么套用求期望的公式即可:
     大多数时候我们只需求得![clip_image002[6] clip_image002[6]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/20110327115044865.png) 中最大的y即可(在y是离散值的情况下)。
中最大的y即可(在y是离散值的情况下)。
     这次求解 与之前的方式不同,以前是先求
与之前的方式不同,以前是先求![clip_image059[12] clip_image059[12]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/201103271150459370.png) ,然后直接预测,这次是对所有可能的
,然后直接预测,这次是对所有可能的![clip_image059[13] clip_image059[13]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/201103271150456796.png) 作积分。
作积分。
     再总结一下两者的区别,最大似然估计没有将![clip_image059[14] clip_image059[14]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/201103271150466173.png) 视作y的估计参数,认为
视作y的估计参数,认为![clip_image059[15] clip_image059[15]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/201103271150477743.png) 是一个常数,只是未知其值而已,比如我们经常使用常数c作为y=2x+c的后缀一样。但是
是一个常数,只是未知其值而已,比如我们经常使用常数c作为y=2x+c的后缀一样。但是![clip_image063[1] clip_image063[1]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/201103271150472727.png) 的计算公式中含有未知数
的计算公式中含有未知数![clip_image059[16] clip_image059[16]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/201103271150471025.png) 。所以再对极大似然估计求导后,可以求出
。所以再对极大似然估计求导后,可以求出![clip_image059[17] clip_image059[17]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/201103271150485975.png) 。
。
     而贝叶斯估计将![clip_image059[18] clip_image059[18]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/201103271150496989.png) 视为随机变量,
视为随机变量,![clip_image059[19] clip_image059[19]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/201103271150496923.png) 的值满足一定的分布,不是固定值,我们无法通过计算获得其值,只能在预测时计算积分。
的值满足一定的分布,不是固定值,我们无法通过计算获得其值,只能在预测时计算积分。
     然而在上述贝叶斯估计方法中,虽然公式合理优美,但后验概率 很难计算,看其公式知道计算分母时需要在所有的
很难计算,看其公式知道计算分母时需要在所有的![clip_image059[20] clip_image059[20]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/201103271150509332.png) 上作积分,然而对于一个高维的
上作积分,然而对于一个高维的![clip_image059[21] clip_image059[21]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/201103271150517314.png) 来说,枚举其所有的可能性太难了。
来说,枚举其所有的可能性太难了。
为了解决这个问题,我们需要改变思路。看![clip_image100[1] clip_image100[1]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/20110327115051661.png) 公式中的分母,分母其实就是P(S),而我们就是要让P(S)在各种参数的影响下能够最大(这里只有参数
公式中的分母,分母其实就是P(S),而我们就是要让P(S)在各种参数的影响下能够最大(这里只有参数![clip_image059[22] clip_image059[22]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/201103271150514183.png) )。因此我们只需求出随机变量
)。因此我们只需求出随机变量![clip_image059[23] clip_image059[23]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/201103271150524117.png) 中最可能的取值,这样求出
中最可能的取值,这样求出![clip_image059[24] clip_image059[24]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/201103271150536003.png) 后,可将
后,可将![clip_image059[25] clip_image059[25]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/201103271150533985.png) 视为固定值,那么预测时就不用积分了,而是直接像最大似然估计中求出
视为固定值,那么预测时就不用积分了,而是直接像最大似然估计中求出![clip_image059[26] clip_image059[26]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/201103271150549459.png) 后一样进行预测,这样就变成了点估计。这种方法称为最大后验概率估计(Maximum a posteriori)方法
后一样进行预测,这样就变成了点估计。这种方法称为最大后验概率估计(Maximum a posteriori)方法
      与
与 一样表示的是P(S),意义是在从随机变量分布中以一定概率
一样表示的是P(S),意义是在从随机变量分布中以一定概率![clip_image067[1] clip_image067[1]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/201103271150571670.png) 选定好
选定好![clip_image059[27] clip_image059[27]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/201103271150578016.png) 后,在给定样本特征
后,在给定样本特征![clip_image082[1] clip_image082[1]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/201103271150589063.png) 上
上![clip_image084[1] clip_image084[1]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/201103271150587045.png) 出现的概率积。
出现的概率积。
     但是如果让我推导这个公式的时候,我会这么做,考虑后验概率![clip_image100[2] clip_image100[2]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/20110327115059392.png) ,我们的目标是求出最有可能的
,我们的目标是求出最有可能的![clip_image059[28] clip_image059[28]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/20110327115059326.png) 。而对于
。而对于![clip_image059[29] clip_image059[29]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/201103271151004372.png) 的所有值来说,分母是一样的,只有分子是不同的。因此
的所有值来说,分母是一样的,只有分子是不同的。因此 。也就是
。也就是![clip_image105[1] clip_image105[1]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/20110327115101128.png) 的推导式。但这个公式与上面的有些不同,同样还是看待每个样本一个
的推导式。但这个公式与上面的有些不同,同样还是看待每个样本一个![clip_image059[30] clip_image059[30]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/201103271151029190.png) ,还是总体样本一个
,还是总体样本一个![clip_image059[31] clip_image059[31]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/201103271151025536.png) 的问题。
的问题。
     与最大似然估计对比发现,MAP只是将![clip_image059[32] clip_image059[32]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/201103271151031882.png) 移进了条件概率中,并且多了一项
移进了条件概率中,并且多了一项![clip_image067[2] clip_image067[2]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/201103271151041816.png) 。一般情况下我们认为
。一般情况下我们认为 ,实际上,贝叶斯最大后验概率估计相对于最大似然估计来说更容易克服过度拟合问题。我想原因是这样的,过度拟合一般是极大化
,实际上,贝叶斯最大后验概率估计相对于最大似然估计来说更容易克服过度拟合问题。我想原因是这样的,过度拟合一般是极大化![clip_image063[2] clip_image063[2]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/201103271151049275.png) 造成的。而在此公式中多了一个参数
造成的。而在此公式中多了一个参数![clip_image059[33] clip_image059[33]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/201103271151059209.png) ,整个公式由两项组成,极大化
,整个公式由两项组成,极大化![clip_image065[2] clip_image065[2]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/201103271151051368.png) 时,不代表此时
时,不代表此时![clip_image067[3] clip_image067[3]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/201103271151058827.png) 也能最大化。相反,
也能最大化。相反,![clip_image059[34] clip_image059[34]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/201103271151065173.png) 是多值高斯分布,极大化
是多值高斯分布,极大化![clip_image065[3] clip_image065[3]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/201103271151062108.png) 时,
时,![clip_image067[4] clip_image067[4]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/201103271151071170.png) 概率反而可能比较小。因此,要达到最大化
概率反而可能比较小。因此,要达到最大化![clip_image105[2] clip_image105[2]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/201103271151071104.png) 需要在两者之间达到平衡,也就靠近了偏差和方差线的交叉点。这个跟机器翻译里的噪声信道模型比较类似,由两个概率决定比有一个概率决定更靠谱。作者声称利用贝叶斯logistic回归(使用
需要在两者之间达到平衡,也就靠近了偏差和方差线的交叉点。这个跟机器翻译里的噪声信道模型比较类似,由两个概率决定比有一个概率决定更靠谱。作者声称利用贝叶斯logistic回归(使用![clip_image105[3] clip_image105[3]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/201103271151088530.png) 的logistic回归)应用于文本分类时,即使特征个数n远远大于样例个数m,也很有效。
的logistic回归)应用于文本分类时,即使特征个数n远远大于样例个数m,也很有效。
 
                    
                





![clip_image018[1] clip_image018[1]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/201103271149599731.png)
![clip_image010[1] clip_image010[1]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/201103271150007505.png)
![clip_image012[1] clip_image012[1]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/201103271150006077.png)
![clip_image020[1] clip_image020[1]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/201103271150003502.png)
![clip_image012[2] clip_image012[2]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/201103271150012913.png)

![clip_image022[1] clip_image022[1]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/201103271150018420.png)
![clip_image012[3] clip_image012[3]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/201103271150022291.png)

![clip_image010[3] clip_image010[3]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/201103271150037665.png)


![clip_image010[4] clip_image010[4]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/201103271150051088.png)

![clip_image028[1] clip_image028[1]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/201103271150062908.png)

![clip_image028[2] clip_image028[2]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/201103271150071729.png)
![clip_image010[5] clip_image010[5]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/201103271150071663.png)
![clip_image010[6] clip_image010[6]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/201103271150081597.png)
![clip_image012[4] clip_image012[4]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/20110327115009659.png)


![clip_image036[1] clip_image036[1]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/201103271150111300.png)
![clip_image036[2] clip_image036[2]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/20110327115012362.png)
![clip_image036[3] clip_image036[3]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/201103271150127821.png)
![clip_image036[4] clip_image036[4]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/201103271150136118.png)
![clip_image036[5] clip_image036[5]](http://images.cnblogs.com/cnblogs_com/jerrylead/201103/201103271150136052.png)














 
                
            
         
 浙公网安备 33010602011771号
浙公网安备 33010602011771号