本文根据西瓜书内容整理而成,并参考了以下资料:
- Datawhale南瓜书https://www.datawhale.cn/learn/content/2/65
3.1 基本形式
示例 \(x=(x_1,x_2,\dots;x_d)\),那么我们所获得的预测函数形式为
\[f(x)=\omega_1x_1+\omega_2x_2+\dots+\omega_dx_d+b
\]
也可以写成$$f(x)=w^{T}x+b$$
Remark: 直观且很好解释
3.2 线性回归
抽象属性与属性值的转化:
- 有序的概念时转化为数字{1,0.5,0},比如身高
- 无序的概念转化为多个维度,(0,0,1)(0,1,0)这种
线性回归目标:
\[f(x_i)=wx_i+b \Rightarrow f(x_i) \approx y_i
\]
key: 如何评估尽量的相似?
均方误差:$$argmin_{w,b} ||f(x)-y||_2$$
Remark:
- 一个很标准的最优化问题
- 同时也是极其经典的最小二乘法问题
- 从正则化方程角度来分析,由于求解过程中常出现不满秩情况,所以常用引入正则化项
- 类似高中数学常用思想,$$y = wx_i+b \Rightarrow \ln y = wx_i+b$$则此称为对数线性回归,同理继续扩展,有广义线性模型$$y = wx_i+b \Rightarrow g(y) = wx_i+b$$
3.3 对数几率回归
基本思想:
- 线性回归问题解决的是对函数值的预测,但分类任务要的是类别
- 想法:根据预测到的值进行分类,正数则为正例,反之同理,即
\[z=g(y) \approx w^Tx+b
\]
\[y = \begin{cases} 0, & z < 0; \\ 0.5, & z = 0; \\ 1, & z > 0 \end{cases}
\]
- 但是\(g^-\)不可导,所以我们就换用了和上述函数形式很像,但是连续的对数几率函数$$y=\frac{1}{1+e^{-z}}$$
- 反解解出\(g\),得到此式,是一种对数(\(\ln\))几率(odds)回归模型$$\ln \frac{y}{1-y} = w^Tx+b$$
概念与定义:
- 几率(odds):正反例可能性比值\(\frac{y}{1-y}\)
- 对数几率(log odds):正反例可能性比值\(\ln \frac{y}{1-y}\)
计算:
如何确定预测函数中的\(w\)与\(b\)?
核心思想:极大似然估计法
对于一个sample x
| y(类别) |
0 |
1 |
| 概率p |
\(p_0\) |
\(p_1\) |
同时,根据
\[\ln \frac{p(y = 1 \mid \boldsymbol{x})}{p(y = 0 \mid \boldsymbol{x})} = \boldsymbol{w}^\mathrm{T} \boldsymbol{x} + b \
\]
得到\(p_0,p_1\)
\[p(y = 1 \mid \boldsymbol{x}) = \frac{e^{\boldsymbol{w}^\mathrm{T} \boldsymbol{x} + b}}{1 + e^{\boldsymbol{w}^\mathrm{T} \boldsymbol{x} + b}} \,,
\]
\[p(y = 0 \mid \boldsymbol{x}) = \frac{1}{1 + e^{\boldsymbol{w}^\mathrm{T} \boldsymbol{x} + b}} \
\]
一通化简+似然估计操作得到以下目标
\[argmax_{\beta}l(\beta)=
\sum_{i=1}^{m} \left( -y_i \boldsymbol{\beta}^\mathrm{T} \hat{\boldsymbol{x}}_i + \ln \left( 1 + e^{\boldsymbol{\beta}^\mathrm{T} \hat{\boldsymbol{x}}_i} \right) \right)\]
为高阶可导连续凸函数,根据最优化算法理论,可以使用梯度下降法/牛顿法得到最优解
3.4 线性判别分析(LDA)
基本思想:
- 找一条直线,把我们的样本点全部投影到这条直线上,根据投影点的位置来确定样本的类别
- 一个好的直线应该实现同类样本投影点尽量近,同时两类样本投影点应该尽量远
- 转化为数学语言是:同类样例协方差尽量小,类中心举例尽量大
计算:
定义 “类内散度矩阵” (within-class scatter matrix)
把所有类自己的协方差加起来
\[\begin{align*} \mathbf{S}_w &= \boldsymbol{\Sigma}_0 + \boldsymbol{\Sigma}_1 \\ &= \sum_{\boldsymbol{x} \in X_0} (\boldsymbol{x} - \boldsymbol{\mu}_0)(\boldsymbol{x} - \boldsymbol{\mu}_0)^\mathrm{T} + \sum_{\boldsymbol{x} \in X_1} (\boldsymbol{x} - \boldsymbol{\mu}_1)(\boldsymbol{x} - \boldsymbol{\mu}_1)^\mathrm{T} \end{align*}
\]
定义 “类间散度矩阵” (between-class scatter matrix)
\[\mathbf{S}_b = (\boldsymbol{\mu}_0 - \boldsymbol{\mu}_1)(\boldsymbol{\mu}_0 - \boldsymbol{\mu}_1)^\mathrm{T},
\]
我们想要最大化的目标
\[\begin{align*} J &= \frac{\|\boldsymbol{w}^\mathrm{T} \boldsymbol{\mu}_0 - \boldsymbol{w}^\mathrm{T} \boldsymbol{\mu}_1\|_2^2}{\boldsymbol{w}^\mathrm{T} \boldsymbol{\Sigma}_0 \boldsymbol{w} + \boldsymbol{w}^\mathrm{T} \boldsymbol{\Sigma}_1 \boldsymbol{w}} \\ &= \frac{\boldsymbol{w}^\mathrm{T} (\boldsymbol{\mu}_0 - \boldsymbol{\mu}_1) (\boldsymbol{\mu}_0 - \boldsymbol{\mu}_1)^\mathrm{T} \boldsymbol{w}}{\boldsymbol{w}^\mathrm{T} (\boldsymbol{\Sigma}_0 + \boldsymbol{\Sigma}_1) \boldsymbol{w}} \end{align*}
\]
可简写成 $$ J = \frac{\boldsymbol{w}^\mathrm{T} \mathbf{S}_b \boldsymbol{w}}{\boldsymbol{w}^\mathrm{T} \mathbf{S}_w \boldsymbol{w}} $$
问题转化为求解以下最优化问题:
\[argmax_w J = \frac{\boldsymbol{w}^\mathrm{T} \mathbf{S}_b \boldsymbol{w}}{\boldsymbol{w}^\mathrm{T} \mathbf{S}_w \boldsymbol{w}}
\]
使用最优化相关的知识和步骤去求解,得到结果
\[\boldsymbol{w} = \mathbf{S}_w^{-1} (\boldsymbol{\mu}_0 - \boldsymbol{\mu}_1)
\]
Remark: 根据贝叶斯决策理论,LDA是有效的,当两类数据同先验,满足高斯分布且协方差相等时,LDA可达到最优分类
多分类任务的推广
“类内散度矩阵” (within-class scatter matrix) :
\[\mathbf{S}_w = \sum_{i=1}^{N} \mathbf{S}_{w_i}
\]
“类间散度矩阵” (between-class scatter matrix):
\[\begin{align*} \mathbf{S}_b &= \mathbf{S}_t - \mathbf{S}_w \\ &= \sum_{i=1}^{N} m_i (\boldsymbol{\mu}_i - \boldsymbol{\mu})(\boldsymbol{\mu}_i - \boldsymbol{\mu})^\mathrm{T} \end{align*}
\]
(\(m_i\) 是第 \(i\) 类样本的数量 )
“全局散度矩阵”:
\[\begin{align*} \mathbf{S}_t &= \mathbf{S}_b + \mathbf{S}_w \\ &= \sum_{i=1}^{m} (\boldsymbol{x}_i - \boldsymbol{\mu})(\boldsymbol{x}_i - \boldsymbol{\mu})^\mathrm{T}, \end{align*}
\]
此时的优化目标
\[\max_W\frac{tr(W^TS_bW)}{tr(W^TS_wW)}
\]
根据最优化理论解得
\[S_bW=\lambda S_wW
\]
再根据最优化理论求得\(W\)的闭式解是\(S_w^{-1}S_b\)的\(N-1\)个最大广义特征值所对应的特征向量组成的矩阵