datawhale吃瓜教程task2

datawhale吃瓜教程task2
- 第三章线性模型

第三章线性模型

3.1 基本形式

$$
f(x)=w_1x_1+w_2x_2+\dots+w_nx_n
$$

向量形式：
$$
f(x)=w^Tx+b
$$

二值特征可以转换为一个取值零一的特征
有序的多值特征也可以转换为一个数值不同的特征
无序的离散特征要转换为多个特征(one-hot编码)

3.2 线性回归

正交回归
- 以到直线距离最短为性能度量
linear regression(MSE)
- 使用均方差作为性能度量，对应了欧氏距离，是和y轴平行的到拟合线段的距离
- 基于均方差最小化进行求解的方法叫做最小二乘法
  
  $$
  E_{(w,b)}=\sum_{i=1}^{m(y_i-f(x_i))}2=\sum_{i=1}^{m(y_i-wx_i-b)}2
  $$
- arg的意思就是当后面的函数求最小值时参数的取值
  $$
  arg_{(w,b)}minf(x)
  $$
极大似然估计——估计概率分布的参数值
- 概率密度函数：

$$
P(x;\theta)
$$

x1,x2,x3…是来自X的n个独立同分布的样本，联合概率：

$$
L(\theta)=\prod_{i=1}^nP(x_i;\theta)
$$

theta为未知量，以上概率是一个关于theta的函数，即为样本的似然函数
极大似然估计：使得观测样本出现概率最大的分布就是代求分布，即似然函数取到最大值的theta为theta的估计值，通常两边同取对数来计算对数似然函数
对于线性回归来说，也可以设其为
$$
y=wx+b-\epsilon\
p(\epsilon)=\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{\epsilon^2}{2\sigma2})\
p(y)=\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y-(wx+b))^2}{2\sigma2})\L(w,b)=\prod_{i=1}^{mP(y_i)=\prod_{i=1}}m\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y_i-(wx_i+b))^2}{2\sigma2})\lnL(w,b)=\sum_{i=1}^{mln\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y_i-(wx_i+b))}2}{2\sigma^{2})\=\sum_{i=1}}mln\frac{1}{\sqrt{2\pi}\sigma}+\sum_{i=1}^{mlnexp(-\frac{(y_i-(wx_i+b))}2}{2\sigma^2})
$$
- sigma为不受控制的随机误差，通常假设其为均值为0的正态分布
$$
lnL(w,b)=mln\frac{1}{\sqrt{2\pi}\sigma}-\frac{1}{2\sigma^2}\sum_{i=1}m{(y_i-wx_i-b)^2}
$$
所以最大化似然函数等价于最小化后面一项
$$
(w^*,b*)=arg_{(w,b)}min\sum_{i=1}^{m{(y_i-wx_i-b)}2}
$$
- 凸集——两点属于该集合，两点连线上任意一点属于该集合
- 凸函数——D为非空凸集，f是定义在D上的函数，对于任意的在D中的x1, x2, 0<alpha<1，均有
$$
f(\alpha x^{1+(1-\alpha)x}2)\le\alpha f(x^{1)+(1-\alpha)f(x}2)
$$
f为凸函数
- 求解w和b
梯度(多元函数的一阶导数)：n元函数f(x)对自变量x=(x1,x2,x3,……)的各分量的偏导数都存在，则f(x)在x处一阶可导，分别对每个分量的偏导列成列向量，称为一阶导数或梯度

heissian(海塞)矩阵(多元函数的二阶导数)：由二阶偏导构成的二维矩阵

f(x)二阶可微，如果f(x)的海塞矩阵是半正定的，f(x)是凸函数

半正定矩阵的判定定理：若实对称矩阵所有顺序主子式非负，那么该矩阵为半正定矩阵

若f(x)是凸函数，x*是全局解(最小值点)的充要条件是梯度等于0
$$
b=\frac1{m}\sum^m_{i=1}(y_i-wx_i)\=\overline y- w\overline x\
$$
求w：将得到的b回代到f(x)关于w的一阶偏导等于0的计算式
$$
mb-\sum^{m_{i=1}(y_i-wx_i)=0\b=\frac1m\sum}m_{i=1}(y_i-wx_i)=\overline y- w\overline x\
$$
最终得到：
$$
w=\frac{\sum^m_{i=1}y_i(x_i-\overline x)}{\sum^m_{i=1}x_i2-\frac1m(\sum^m_{i=1}x_i)2}
$$

机器学习三要素
- 模型：根据具体问题，确定假设空间
- 策略：根据评价标准确定选取最优模型的策略(通常会产生一个损失函数)
- 算法：求解损失函数，确定最优模型
多元线性回归

同样使用最小二乘法，先对公式进行一定的转化，用y=wTx+b得到w‘

求海塞矩阵并判定其正定性，无法确定矩阵一定正定，设矩阵为正定

利用凸函数最值求w'
$$
w'=(X^TX)X^Ty
$$

3.3 对数几率回归

算法原理
- 在线性模型的基础上套一个映射函数来实现分类
  
  sigmoid，像s状的函数，从R映射到(0,1)
  
  西瓜书中使用了从对数几率的角度来解释
  
  广泛的解释从最大熵角度
损失函数的极大似然估计推导
- 确定概率质量函数
  $$
  p(y=1|x)=\frac1{1+e^{-(wTx+b)}}=\frac{e^{wTx+b}}{1+e^{wTx+b}}\
  p(y=0|x)=1-p(y=1|x)=\frac1{1+e^{wTx+b}}
  $$
  令w'=(w;b), x'=(x;1)
  $$
  p(y=1|x';w')=\frac{e^{w'Tx}}{1+e^{w'Tx}}=p_1(w',x')\
  p(y=0|x';w')=\frac1{1+e^{w'Tx}}=p_0(w',x')
  $$
  合并
  $$
  p(y|x';w')=y*p_1(w',x')+(1-y)p_0(w',x')
  $$
- 写出似然函数
  $$
  L(w)=\prod_{i=1}^nP(y_i|w'_i;\beta)
  $$
  
  两边同取对数进行运算
  $$
  l(w)=\sum^{m_{i=1}(y_iw'}Tx-ln(1+e^{w'Tx}))
  $$
损失函数的信息论的推导
- 信息论
  
  自信息
  $$
  I(X)=-log_bp(x)
  $$
  以2为底是bit
  
  信息熵：度量随机变量X的不确定性
  $$
  E(I(X))=-\sum_x p(x)log_bp(x)
  $$
  相对熵(KL散度)：用来度量理想分布p(x)和模拟分布q(x)之间的差异
  $$
  D_{KL}(p||q)=\sum_xp(x)log_b(\frac{p(x)}{q(x)})\
  =\sum_xp(x)log_bp(x)-\sum_xp(x)log_bq(x)
  $$
  即为相对熵=p(x)信息熵-交叉熵
- 策略：最小化交叉熵
  
  与理想分布最接近的模拟分布即为最优分布，因此需要最小化相对熵，由于p(x)信息熵为常量，目标变为最小化交叉熵
  
  理想分布为yi=1时p(1)=1,p(0)=0,yi=0时反之
  
  模拟分布在上面最小二乘法概率质量函数处
  
  最终得到3.27
- 对数几率回归算法机器学习三要素：
  
  模型：线性模型，输出范围(0,1)，近似阶跃函数的单调可微函数(sigmoid)
  
  策略：极大似然估计，信息论
  
  算法：梯度下降，牛顿法(无法得到闭式解，求近似解)

3.4 二分类线性判别

算法原理(模型)
- 在特征空间中，让全体训练样本投影到一条直线之后：异类样本中心尽可能远，同类方差尽可能小
  
  均值和方差都是从向量角度来讲的
  
  异类中心尽可能远
  $$
  max||w^T\mu_0-wT\mu_1||_2^2\
  max|||w^T|\cdot|\mu_0|\cdot cos\theta_0-|w^T|\cdot|\mu_1|\cdot cos\theta_1||_2^2
  $$
  公式最右边下面的2表示二范数是向量的模长，上面的2为平方
  
  同类样本方差尽可能小
  $$
  min w^T\sum_0w\
  =\sum_{x\in X_0}(w^Tx-wT\mu_0)(x^Tw-\mu_0Tw)
  $$
损失函数推导(策略)

损失函数：分子是均值，分母为二分类方差之和
$$
maxJ=\frac{||w^T\mu_0-wT\mu_1||_2^2}{wT\sum_0w+w^T\sum_1w}\
maxJ=\frac{w^{T(\mu_0-\mu_1)(\mu_0-\mu_1)}Tw}{w^T(\sum_0+\sum_1)w}\
=\frac{w^TS_bw}{wTS_ww}
$$
另分母式子=1，因为Sw在确定样本后是固定值，因此只需要最大化分子，等价于最小化分母的导数
拉格朗日乘子算法

对于最小化的目标函数f(x)和约束函数h(x)均有一阶偏导
$$
L(x,\lambda)=f(x)+\sum^n_{i=1}\lambda_ih_i(x)
$$
关于x求偏导，令导数等于0并搭配约束函数等于0，求解出来的x为可能的极值点
求解w(算法)
$$
f(x)=-{w^{TS_bw}\h(x)={w}TS_ww}-1\
L(x,\lambda)=-{w^{TS_bw}+\lambda({w}TS_ww}-1)
$$

用拉格朗日乘子算法对w求偏导，求偏导的结果为
$$
-(S_b+S_b^{T)w+\lambda(S_w+S_W}T)w
$$
Sb等于Sb的转置，Sw等于Sw的矩阵(对称矩阵)
$$
=-2S_bw+2\lambda S_ww
$$
令偏导数等于0
$$
S_bw=2\lambda S_ww\
(\mu_0-\mu_1)(\mu_0-\mu_1)^Tw=\lambda S_ww\
(\mu_0-\mu_1)^Tw为一个列向量乘以一个横向量,常量\
w=\frac{(\mu_0-\mu_1)^Tw}\lambda S_w^{-1}(\mu_0-\mu_1)
$$
只需要关心w的方向，数值部分无所谓
广义特征值和广义瑞利商
- 广义特征值
- 广义瑞利商

posted @ 2022-01-17 20:28 ytttttt桃阅读(69) 评论(0) 收藏举报

刷新页面返回顶部

ytttttt桃

datawhale吃瓜教程task2

datawhale吃瓜教程task2

第三章 线性模型

3.1 基本形式

3.2 线性回归

正交回归

linear regression(MSE)

极大似然估计——估计概率分布的参数值

机器学习三要素

多元线性回归

3.3 对数几率回归

算法原理

3.4 二分类线性判别

公告

第三章线性模型