周志华《机器学习》学习笔记
线性模型
通过属性的线性组合来进行函数预测,
f(x)=w1x1+w2x2+...+wdxd+b
使用向量形式
f(x)=wTx+b
其中
x=(x1,x2,..,xd)为d个属性,
wd,
b是通过学习获得的取值,
wd直接反应各个属性的重要性。
线性模型>>非线性模型
在线性模型的基础上引入层级结构或者高维映射可得到非线性模型。
线性回归
给定一个带有标注的数据集,学习一个线性模型来预测新的数据输出标注。
一维的情况
线性回归试图学得f(xi)=wxi+b使得f(xi)≃yi
通过衡量f(x)与y的均方误差得到w,b,均方误差是回归任务中最常用的性能度量。
均方误差也叫欧氏距离。
让均方误差最小化便得到w,b,
(w∗,b∗)=argmin∑i=1m(f(xi)−yi)2=argmin∑i=1m(yi−wxi−b)2
最小二乘法(Least square method)求解最小均方误差。
令 E(w,b)=∑mi=1(yi−wxi−b)2,分别对其w,b求偏导数,再令两个偏导数为0即个得到最优的闭式解。
多维情况
f(xi)=wTxi+b使得f(xi)≃yi
w,b的表现写成w^=(w;b)
数据集用矩阵表示
⎧⎩⎨⎪⎪⎪⎪⎪⎪x11x21...xm1x12x22...xm2............x1dx2d...xmd11...1⎫⎭⎬⎪⎪⎪⎪⎪⎪=⎧⎩⎨⎪⎪⎪⎪⎪⎪⎪⎪xT1xT2...xTm11...1⎫⎭⎬⎪⎪⎪⎪⎪⎪⎪⎪
标记
y=(y1;y2;...;yd)
让均方误差最小化
(w∗,b∗)=argmin(y−Xw^)T(y−Xw^)
令
E=(y−Xw^)T(y−Xw^), 对
w^求导并使其结果为0即可就得解。
当数据集个数小于属性个数时,将得到多个解能让均方误差最小,引入正则化项选择一个解输出。
对数线性回归
让模型的预测值逼近lny而不是y,相当于让ewTx+b逼近y。
广义线性模型:
y=g−1(wTx+b)
g(.),单调可微函数,称为联系函数。
当
g(.)取
ln()时,即为对数线性回归。
对数几率回归
线性回归在分类问题中的应用。
找一个单调可微线性函数将标记y与线性模型的预测值关联起来。
简单的二分类问题用单位阶跃函数,当预测值大于0,为正例,小于0为反例,等于0随意。
实际上阶跃函数不连续,常用对数几率函数(Logistic function)代替,将实值z转为接近0或1的y值:
y=11+e−z
什么是几率?
正例的可能性/非正例的可能性
什么是对数几率?
ln(正例的可能性/非正例的可能性)
z=(wTx+b)带入上式,在变形得到ln(y1−y)=wTx+b
这就是用线性回归模型的预测结果去逼近真实标记的对数几率。
对数几率函数是一种“Sigmoid”函数,它将z转为一个接近0或者1的y值。