datawhale吃瓜教程task2
datawhale吃瓜教程task2
第三章 线性模型
3.1 基本形式
$$
f(x)=w_1x_1+w_2x_2+\dots+w_nx_n
$$
向量形式:
$$
f(x)=w^Tx+b
$$
- 二值特征可以转换为一个取值零一的特征
- 有序的多值特征也可以转换为一个数值不同的特征
- 无序的离散特征要转换为多个特征(one-hot编码)
3.2 线性回归
-
正交回归
- 以到直线距离最短为性能度量
-
linear regression(MSE)
-
使用均方差作为性能度量,对应了欧氏距离,是和y轴平行的到拟合线段的距离
-
基于均方差最小化进行求解的方法叫做最小二乘法
$$
E_{(w,b)}=\sum_{i=1}m(y_i-f(x_i))2=\sum_{i=1}m(y_i-wx_i-b)2
$$ -
arg的意思就是当后面的函数求最小值时参数的取值
$$
arg_{(w,b)}minf(x)
$$
-
-
极大似然估计——估计概率分布的参数值
- 概率密度函数:
$$
P(x;\theta)
$$
- x1,x2,x3…是来自X的n个独立同分布的样本,联合概率:
$$
L(\theta)=\prod_{i=1}^nP(x_i;\theta)
$$
-
theta为未知量,以上概率是一个关于theta的函数,即为样本的似然函数
-
极大似然估计:使得观测样本出现概率最大的分布就是代求分布,即似然函数取到最大值的theta为theta的估计值,通常两边同取对数来计算对数似然函数
-
对于线性回归来说,也可以设其为
$$
y=wx+b-\epsilon\
p(\epsilon)=\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{\epsilon2}{2\sigma2})\
p(y)=\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y-(wx+b))2}{2\sigma2})\L(w,b)=\prod_{i=1}mP(y_i)=\prod_{i=1}m\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y_i-(wx_i+b))2}{2\sigma2})\lnL(w,b)=\sum_{i=1}mln\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y_i-(wx_i+b))2}{2\sigma2})\=\sum_{i=1}mln\frac{1}{\sqrt{2\pi}\sigma}+\sum_{i=1}mlnexp(-\frac{(y_i-(wx_i+b))2}{2\sigma^2})
$$- sigma为不受控制的随机误差,通常假设其为均值为0的正态分布
$$
lnL(w,b)=mln\frac{1}{\sqrt{2\pi}\sigma}-\frac{1}{2\sigma2}\sum_{i=1}m{(y_i-wx_i-b)^2}
$$
所以最大化似然函数等价于最小化后面一项
$$
(w*,b*)=arg_{(w,b)}min\sum_{i=1}m{(y_i-wx_i-b)2}
$$-
凸集——两点属于该集合,两点连线上任意一点属于该集合
-
凸函数——D为非空凸集,f是定义在D上的函数,对于任意的在D中的x1, x2, 0<alpha<1,均有
$$
f(\alpha x1+(1-\alpha)x2)\le\alpha f(x1)+(1-\alpha)f(x2)
$$
f为凸函数- 求解w和b
梯度(多元函数的一阶导数):n元函数f(x)对自变量x=(x1,x2,x3,……)的各分量的偏导数都存在,则f(x)在x处一阶可导,分别对每个分量的偏导列成列向量,称为一阶导数或梯度
heissian(海塞)矩阵(多元函数的二阶导数):由二阶偏导构成的二维矩阵
f(x)二阶可微,如果f(x)的海塞矩阵是半正定的,f(x)是凸函数
半正定矩阵的判定定理:若实对称矩阵所有顺序主子式非负,那么该矩阵为半正定矩阵
若f(x)是凸函数,x*是全局解(最小值点)的充要条件是梯度等于0
$$
b=\frac1{m}\sum^m_{i=1}(y_i-wx_i)\=\overline y- w\overline x\
$$
求w:将得到的b回代到f(x)关于w的一阶偏导等于0的计算式
$$
mb-\summ_{i=1}(y_i-wx_i)=0\b=\frac1m\summ_{i=1}(y_i-wx_i)=\overline y- w\overline x\
$$
最终得到:
$$
w=\frac{\sum^m_{i=1}y_i(x_i-\overline x)}{\summ_{i=1}x_i2-\frac1m(\summ_{i=1}x_i)2}
$$
-
机器学习三要素
-
模型:根据具体问题,确定假设空间
-
策略:根据评价标准确定选取最优模型的策略(通常会产生一个损失函数)
-
算法:求解损失函数,确定最优模型
-
-
多元线性回归
同样使用最小二乘法,先对公式进行一定的转化,用y=wTx+b得到w‘
求海塞矩阵并判定其正定性,无法确定矩阵一定正定,设矩阵为正定
利用凸函数最值求w'
$$
w'=(XTX)X^Ty
$$
3.3 对数几率回归
-
算法原理
-
在线性模型的基础上套一个映射函数来实现分类
sigmoid,像s状的函数,从R映射到(0,1)
西瓜书中使用了从对数几率的角度来解释
广泛的解释从最大熵角度
-
-
损失函数的极大似然估计推导
-
确定概率质量函数
$$
p(y=1|x)=\frac1{1+e{-(wTx+b)}}=\frac{e{wTx+b}}{1+e{wTx+b}}\
p(y=0|x)=1-p(y=1|x)=\frac1{1+e{wTx+b}}
$$
令w'=(w;b), x'=(x;1)
$$
p(y=1|x';w')=\frac{e{w'Tx}}{1+e{w'Tx}}=p_1(w',x')\
p(y=0|x';w')=\frac1{1+e{w'Tx}}=p_0(w',x')
$$
合并
$$
p(y|x';w')=y*p_1(w',x')+(1-y)p_0(w',x')
$$ -
写出似然函数
$$
L(w)=\prod_{i=1}^nP(y_i|w'_i;\beta)
$$两边同取对数进行运算
$$
l(w)=\summ_{i=1}(y_iw'Tx-ln(1+e{w'Tx}))
$$
-
-
损失函数的信息论的推导
-
信息论
自信息
$$
I(X)=-log_bp(x)
$$
以2为底是bit信息熵:度量随机变量X的不确定性
$$
E(I(X))=-\sum_x p(x)log_bp(x)
$$
相对熵(KL散度):用来度量理想分布p(x)和模拟分布q(x)之间的差异
$$
D_{KL}(p||q)=\sum_xp(x)log_b(\frac{p(x)}{q(x)})\
=\sum_xp(x)log_bp(x)-\sum_xp(x)log_bq(x)
$$
即为相对熵=p(x)信息熵-交叉熵 -
策略:最小化交叉熵
与理想分布最接近的模拟分布即为最优分布,因此需要最小化相对熵,由于p(x)信息熵为常量,目标变为最小化交叉熵
理想分布为yi=1时p(1)=1,p(0)=0,yi=0时反之
模拟分布在上面最小二乘法概率质量函数处
最终得到3.27
-
对数几率回归算法机器学习三要素:
模型:线性模型,输出范围(0,1),近似阶跃函数的单调可微函数(sigmoid)
策略:极大似然估计,信息论
算法:梯度下降,牛顿法(无法得到闭式解,求近似解)
-
3.4 二分类线性判别
-
算法原理(模型)
-
在特征空间中,让全体训练样本投影到一条直线之后:异类样本中心尽可能远,同类方差尽可能小
均值和方差都是从向量角度来讲的
异类中心尽可能远
$$
max||wT\mu_0-wT\mu_1||_2^2\
max|||w^T|\cdot|\mu_0|\cdot cos\theta_0-|w^T|\cdot|\mu_1|\cdot cos\theta_1||_2^2
$$
公式最右边下面的2表示二范数是向量的模长,上面的2为平方同类样本方差尽可能小
$$
min w^T\sum_0w\
=\sum_{x\in X_0}(wTx-wT\mu_0)(xTw-\mu_0Tw)
$$
-
-
损失函数推导(策略)
损失函数:分子是均值,分母为二分类方差之和
$$
maxJ=\frac{||wT\mu_0-wT\mu_1||_22}{wT\sum_0w+w^T\sum_1w}\
maxJ=\frac{wT(\mu_0-\mu_1)(\mu_0-\mu_1)Tw}{w^T(\sum_0+\sum_1)w}\
=\frac{wTS_bw}{wTS_ww}
$$
另分母式子=1,因为Sw在确定样本后是固定值,因此只需要最大化分子,等价于最小化分母的导数 -
拉格朗日乘子算法
对于最小化的目标函数f(x)和约束函数h(x)均有一阶偏导
$$
L(x,\lambda)=f(x)+\sum^n_{i=1}\lambda_ih_i(x)
$$
关于x求偏导,令导数等于0并搭配约束函数等于0,求解出来的x为可能的极值点 -
求解w(算法)
$$
f(x)=-{wTS_bw}\h(x)={wTS_ww}-1\
L(x,\lambda)=-{wTS_bw}+\lambda({wTS_ww}-1)
$$用拉格朗日乘子算法对w求偏导,求偏导的结果为
$$
-(S_b+S_bT)w+\lambda(S_w+S_WT)w
$$
Sb等于Sb的转置,Sw等于Sw的矩阵(对称矩阵)
$$
=-2S_bw+2\lambda S_ww
$$
令偏导数等于0
$$
S_bw=2\lambda S_ww\
(\mu_0-\mu_1)(\mu_0-\mu_1)^Tw=\lambda S_ww\
(\mu_0-\mu_1)^Tw为一个列向量乘以一个横向量,常量\
w=\frac{(\mu_0-\mu_1)^Tw}\lambda S_w^{-1}(\mu_0-\mu_1)
$$
只需要关心w的方向,数值部分无所谓 -
广义特征值和广义瑞利商
- 广义特征值
- 广义瑞利商