机器学习基石笔记10——机器可以怎样学习（2）

转载请注明出处：http://www.cnblogs.com/ymingjingr/p/4271742.html

十、Logistic Regression

罗杰斯特回归（最常见到的翻译：Logistic回归）。

10.1 Logistic Regression Problem

Logistic回归问题。

使用二元分类分析心脏病复发问题，其输出空间只含有两项{+1，-1}，分别表示复发和不发复发。在含有噪音的情况下，目标函数f可以使用目标分布P来表示，如公式10-1所示，此情形的机器学习流程图如图10-1所示。

（公式10-1）

图10-1 心脏病复发二元分类流程图

但是通常情况下，不会确定的告知患者，心脏病一定会复发或者一定不会，而是以概率的方式告知患者复发的可能性，如图10-2所示，一位患者心脏病复发的可能性为80%。

图10-2 以概率的形式表示复发可能性

此种情况被称为软二元分类（soft binary classification），目标函数f的表达如公式10-2所示，其输出以概率的形式，因此在0~1之间。

（公式10-2）

面对如公式10-2的目标函数，理想的数据集D（输入加输出空间）应如图10-3所示。

图10-3 理想的数据集D

所有的输出都以概率的形式存在，如，用心脏病复发的例子来说明，一般病人只有心脏病发与没复发两种情况，而不可能在病历中记录他曾经的病发概率，现实中的训练数据应如图10-4所示。

图10-4 实际训练数据

可以将实际训练数据看做含有噪音的理想训练数据。

问题是如何使用这些实际的训练数据以解决软二元分类的问题，即假设函数如何设计。

首先回忆在之前的几章内容中提到的两种假设函数（二元分类和线性回归）中都具有的是哪部分？

答案是求输入各属性的加权总分数（score），（还记得第二章中用成绩分数来说明加权求和的意义吗？）可以使用公式10-3表示。

（公式10-3）

如何把该得分从在整个实数范围内转换成为一个0~1之间的值呢？此处就引出了本章的主题，logistic函数（logistic function）用表示。分数s越大风险越高，分数s越小风险越低。假设函数h如公式10-4所示，函数曲线的示意图如图10-5所示。

（公式10-4）

图10-5 logistic函数的示意图

具体的logistic函数的数学表达式如公式10-5所示。

（公式10-5）

代入几个特殊的数值检验是否能将整个实数集上的得分映射到0~1之间，代入负无穷，得；代入0，得；代入正无穷，得。logistic函数完美的将整个实数集上的值映射到了0~1区间上。

观察函数的图形，该函数是一个平滑（处处可微分），单调（monotonic）的S形（sigmoid）函数，因此又被称为sigmoid函数。

通过logistic函数的数学表达式，重写软二元分类的假设函数表达，如公式10-6所示。

（公式10-6）

10.2 Logistic Regression Error

Logistic回归错误。

将logisitic回归与之前学习的二元分类和线性回归做一对比，如图10-7所示。

图10-7 二元分类、线性回归与logistic回归的对比

其中分数s是在每个假设函数中都会出现的，前两个学习模型的错误衡量分别对应着0/1错误和平方错误，而logistic回归所使用的err函数应如何表示则是本节要介绍的内容。

从logistic回归的目标函数可以推导出公式10-7成立。

（公式10-7）

其中花括号上半部分不难理解，是将目标函数等式左右对调的结果，而下半部分的推导也很简单，因为+1与-1的几率相加需要等于1。

假设存在一个数据集 ,则通过目标函数产生此种数据集样本的概率可以用公式10-8表示。

(公式 10-8)

就是各输入样本产生对应输出标记概率的连乘。而从公式10-7可知公式10-8可以写成公式10-9的形式。

（公式10-9）

但是函数f是未知的，已知的只有假设函数h，可不可以将假设函数h取代公式10-9中的f呢？如果这样做意味着什么？意味着假设函数h产生同样数据集样本D的可能性多大，在数学上又翻译成似然（likelihood），替代之后的公式如公式10-10所示。

（公式10-10）

假设假设函数h和未知函数f很接近（即err很小），那么h产生数据样本D的可能性或叫似然（likelihood）和f产生同样数据D的可能性（probability）也很接近。函数f既然产生了数据样本D，那么可以认为函数f产生该数据样本D的可能性很大。因此可以推断出最好的假设函数g，应该是似然最大的假设函数h，用公式10-11表示。

（公式10-11）

在当假设函数h使用公式10-6的logistic函数，可以得到如公式10-12的特殊性质。

（公式10-12）

因此公式10-10可以写成公式10-13。

此处注意，计算最大的时，所有的对大小没有影响，因为所有的假设函数都会乘以同样的，即h的似然只与函数h对每个样本的连乘有关，如公式10-14。

(公式10-14)

其中表示标记，将标记代替正负号放进假设函数中使得整个式子更加简洁。寻找的是似然最大的假设函数h，因此可以将公式10-14代入寻找最大似然的公式中，并通过一连串的转换得到公式10-15。

（假设函数h与加权向量w一一对应）

（连乘公式不容易求解最大问题，因此求其对数，此处以自然对数e为底）

（之前都是在求最小问题，因此将最大问题加上一个负号转成了最小问题，为了与以前的错误衡量类似，多成了一个。）

（将代入表达式得出上述结果）

（公式10-15）

公式10-15中，这个错误函数称作交叉熵错误（cross-entropy error）。

10.3 Gradient of Logistic Regression Error

Logistic回归错误的梯度。

推导出logistic回归的，下一步的工作是寻找使得最小的权值向量w。

的表达如公式10-16所示。

（公式10-16）

仔细的观察该公式，可以得出该函数为连续（continuous）可微（differentiable）的凸函数，因此其最小值在梯度为零时取得，即。那如何求解呢？即为对权值向量w的各个分量求偏微分，对这种复杂公式求解偏微分可以使用微分中的连锁律。将公式10-16中复杂的表示方式用临时符号表示，为了强调符号的临时性，不使用字母表示，而是使用和，具体如公式10-17。