datawhale吃瓜教程task2

datawhale吃瓜教程task2

第三章 线性模型

3.1 基本形式

$$
f(x)=w_1x_1+w_2x_2+\dots+w_nx_n
$$

向量形式:
$$
f(x)=w^Tx+b
$$

  • 二值特征可以转换为一个取值零一的特征
  • 有序的多值特征也可以转换为一个数值不同的特征
  • 无序的离散特征要转换为多个特征(one-hot编码)

3.2 线性回归

  1. 正交回归

    • 以到直线距离最短为性能度量
  2. linear regression(MSE)

    • 使用均方差作为性能度量,对应了欧氏距离,是和y轴平行的到拟合线段的距离

    • 基于均方差最小化进行求解的方法叫做最小二乘法

      $$
      E_{(w,b)}=\sum_{i=1}m(y_i-f(x_i))2=\sum_{i=1}m(y_i-wx_i-b)2
      $$

    • arg的意思就是当后面的函数求最小值时参数的取值
      $$
      arg_{(w,b)}minf(x)
      $$

  3. 极大似然估计——估计概率分布的参数值

    • 概率密度函数:

$$
P(x;\theta)
$$

  • x1,x2,x3…是来自X的n个独立同分布的样本,联合概率:

$$
L(\theta)=\prod_{i=1}^nP(x_i;\theta)
$$

  • theta为未知量,以上概率是一个关于theta的函数,即为样本的似然函数

  • 极大似然估计:使得观测样本出现概率最大的分布就是代求分布,即似然函数取到最大值的theta为theta的估计值,通常两边同取对数来计算对数似然函数

  • 对于线性回归来说,也可以设其为
    $$
    y=wx+b-\epsilon\
    p(\epsilon)=\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{\epsilon2}{2\sigma2})\
    p(y)=\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y-(wx+b))2}{2\sigma2})\L(w,b)=\prod_{i=1}mP(y_i)=\prod_{i=1}m\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y_i-(wx_i+b))2}{2\sigma2})\lnL(w,b)=\sum_{i=1}mln\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y_i-(wx_i+b))2}{2\sigma2})\=\sum_{i=1}mln\frac{1}{\sqrt{2\pi}\sigma}+\sum_{i=1}mlnexp(-\frac{(y_i-(wx_i+b))2}{2\sigma^2})
    $$

    • sigma为不受控制的随机误差,通常假设其为均值为0的正态分布

    $$
    lnL(w,b)=mln\frac{1}{\sqrt{2\pi}\sigma}-\frac{1}{2\sigma2}\sum_{i=1}m{(y_i-wx_i-b)^2}
    $$
    所以最大化似然函数等价于最小化后面一项
    $$
    (w*,b*)=arg_{(w,b)}min\sum_{i=1}m{(y_i-wx_i-b)2}
    $$

    • 凸集——两点属于该集合,两点连线上任意一点属于该集合

    • 凸函数——D为非空凸集,f是定义在D上的函数,对于任意的在D中的x1, x2, 0<alpha<1,均有

    $$
    f(\alpha x1+(1-\alpha)x2)\le\alpha f(x1)+(1-\alpha)f(x2)
    $$
    f为凸函数

    • 求解w和b

    梯度(多元函数的一阶导数):n元函数f(x)对自变量x=(x1,x2,x3,……)的各分量的偏导数都存在,则f(x)在x处一阶可导,分别对每个分量的偏导列成列向量,称为一阶导数或梯度

    heissian(海塞)矩阵(多元函数的二阶导数):由二阶偏导构成的二维矩阵

    f(x)二阶可微,如果f(x)的海塞矩阵是半正定的,f(x)是凸函数

    半正定矩阵的判定定理:若实对称矩阵所有顺序主子式非负,那么该矩阵为半正定矩阵

    若f(x)是凸函数,x*是全局解(最小值点)的充要条件是梯度等于0
    $$
    b=\frac1{m}\sum^m_{i=1}(y_i-wx_i)\=\overline y- w\overline x\
    $$
    求w:将得到的b回代到f(x)关于w的一阶偏导等于0的计算式
    $$
    mb-\summ_{i=1}(y_i-wx_i)=0\b=\frac1m\summ_{i=1}(y_i-wx_i)=\overline y- w\overline x\
    $$
    最终得到:
    $$
    w=\frac{\sum^m_{i=1}y_i(x_i-\overline x)}{\summ_{i=1}x_i2-\frac1m(\summ_{i=1}x_i)2}
    $$

  1. 机器学习三要素

    • 模型:根据具体问题,确定假设空间

    • 策略:根据评价标准确定选取最优模型的策略(通常会产生一个损失函数)

    • 算法:求解损失函数,确定最优模型

  2. 多元线性回归

同样使用最小二乘法,先对公式进行一定的转化,用y=wTx+b得到w‘

求海塞矩阵并判定其正定性,无法确定矩阵一定正定,设矩阵为正定

利用凸函数最值求w'
$$
w'=(XTX)X^Ty
$$

3.3 对数几率回归

  1. 算法原理

    • 在线性模型的基础上套一个映射函数来实现分类

      sigmoid,像s状的函数,从R映射到(0,1)

      西瓜书中使用了从对数几率的角度来解释

      广泛的解释从最大熵角度

  2. 损失函数的极大似然估计推导

    • 确定概率质量函数
      $$
      p(y=1|x)=\frac1{1+e{-(wTx+b)}}=\frac{e{wTx+b}}{1+e{wTx+b}}\
      p(y=0|x)=1-p(y=1|x)=\frac1{1+e{wTx+b}}
      $$
      令w'=(w;b), x'=(x;1)
      $$
      p(y=1|x';w')=\frac{e{w'Tx}}{1+e{w'Tx}}=p_1(w',x')\
      p(y=0|x';w')=\frac1{1+e{w'Tx}}=p_0(w',x')
      $$
      合并
      $$
      p(y|x';w')=y*p_1(w',x')+(1-y)p_0(w',x')
      $$

    • 写出似然函数
      $$
      L(w)=\prod_{i=1}^nP(y_i|w'_i;\beta)
      $$

      两边同取对数进行运算
      $$
      l(w)=\summ_{i=1}(y_iw'Tx-ln(1+e{w'Tx}))
      $$

  3. 损失函数的信息论的推导

    • 信息论

      自信息
      $$
      I(X)=-log_bp(x)
      $$
      以2为底是bit

      信息熵:度量随机变量X的不确定性
      $$
      E(I(X))=-\sum_x p(x)log_bp(x)
      $$
      相对熵(KL散度):用来度量理想分布p(x)和模拟分布q(x)之间的差异
      $$
      D_{KL}(p||q)=\sum_xp(x)log_b(\frac{p(x)}{q(x)})\
      =\sum_xp(x)log_bp(x)-\sum_xp(x)log_bq(x)
      $$
      即为相对熵=p(x)信息熵-交叉熵

    • 策略:最小化交叉熵

      与理想分布最接近的模拟分布即为最优分布,因此需要最小化相对熵,由于p(x)信息熵为常量,目标变为最小化交叉熵

      理想分布为yi=1时p(1)=1,p(0)=0,yi=0时反之

      模拟分布在上面最小二乘法概率质量函数处

      最终得到3.27

    • 对数几率回归算法机器学习三要素:

      模型:线性模型,输出范围(0,1),近似阶跃函数的单调可微函数(sigmoid)

      策略:极大似然估计,信息论

      算法:梯度下降,牛顿法(无法得到闭式解,求近似解)

3.4 二分类线性判别

  1. 算法原理(模型)

    • 在特征空间中,让全体训练样本投影到一条直线之后:异类样本中心尽可能远,同类方差尽可能小

      均值和方差都是从向量角度来讲的

      异类中心尽可能远
      $$
      max||wT\mu_0-wT\mu_1||_2^2\
      max|||w^T|\cdot|\mu_0|\cdot cos\theta_0-|w^T|\cdot|\mu_1|\cdot cos\theta_1||_2^2
      $$
      公式最右边下面的2表示二范数是向量的模长,上面的2为平方

      同类样本方差尽可能小
      $$
      min w^T\sum_0w\
      =\sum_{x\in X_0}(wTx-wT\mu_0)(xTw-\mu_0Tw)
      $$

  2. 损失函数推导(策略)

    损失函数:分子是均值,分母为二分类方差之和
    $$
    maxJ=\frac{||wT\mu_0-wT\mu_1||_22}{wT\sum_0w+w^T\sum_1w}\
    maxJ=\frac{wT(\mu_0-\mu_1)(\mu_0-\mu_1)Tw}{w^T(\sum_0+\sum_1)w}\
    =\frac{wTS_bw}{wTS_ww}
    $$
    另分母式子=1,因为Sw在确定样本后是固定值,因此只需要最大化分子,等价于最小化分母的导数

  3. 拉格朗日乘子算法

    对于最小化的目标函数f(x)和约束函数h(x)均有一阶偏导
    $$
    L(x,\lambda)=f(x)+\sum^n_{i=1}\lambda_ih_i(x)
    $$
    关于x求偏导,令导数等于0并搭配约束函数等于0,求解出来的x为可能的极值点

  4. 求解w(算法)
    $$
    f(x)=-{wTS_bw}\h(x)={wTS_ww}-1\
    L(x,\lambda)=-{wTS_bw}+\lambda({wTS_ww}-1)
    $$

    用拉格朗日乘子算法对w求偏导,求偏导的结果为
    $$
    -(S_b+S_bT)w+\lambda(S_w+S_WT)w
    $$
    Sb等于Sb的转置,Sw等于Sw的矩阵(对称矩阵)
    $$
    =-2S_bw+2\lambda S_ww
    $$
    令偏导数等于0
    $$
    S_bw=2\lambda S_ww\
    (\mu_0-\mu_1)(\mu_0-\mu_1)^Tw=\lambda S_ww\
    (\mu_0-\mu_1)^Tw为一个列向量乘以一个横向量,常量\
    w=\frac{(\mu_0-\mu_1)^Tw}\lambda S_w^{-1}(\mu_0-\mu_1)
    $$
    只需要关心w的方向,数值部分无所谓

  5. 广义特征值和广义瑞利商

    • 广义特征值
    • 广义瑞利商
posted @ 2022-01-17 20:28  ytttttt桃  阅读(69)  评论(0)    收藏  举报