Loading

3 线性模型

本文根据西瓜书内容整理而成,并参考了以下资料:

  • Datawhale南瓜书https://www.datawhale.cn/learn/content/2/65

3.1 基本形式

示例 \(x=(x_1,x_2,\dots;x_d)\),那么我们所获得的预测函数形式为

\[f(x)=\omega_1x_1+\omega_2x_2+\dots+\omega_dx_d+b \]

也可以写成$$f(x)=w^{T}x+b$$
Remark: 直观且很好解释

3.2 线性回归

抽象属性与属性值的转化:

  • 有序的概念时转化为数字{1,0.5,0},比如身高
  • 无序的概念转化为多个维度,(0,0,1)(0,1,0)这种

线性回归目标:

\[f(x_i)=wx_i+b \Rightarrow f(x_i) \approx y_i \]

key: 如何评估尽量的相似?
均方误差:$$argmin_{w,b} ||f(x)-y||_2$$
Remark:

  • 一个很标准的最优化问题
  • 同时也是极其经典的最小二乘法问题
  • 从正则化方程角度来分析,由于求解过程中常出现不满秩情况,所以常用引入正则化项
  • 类似高中数学常用思想,$$y = wx_i+b \Rightarrow \ln y = wx_i+b$$则此称为对数线性回归,同理继续扩展,有广义线性模型$$y = wx_i+b \Rightarrow g(y) = wx_i+b$$

3.3 对数几率回归

基本思想:

  • 线性回归问题解决的是对函数值的预测,但分类任务要的是类别
  • 想法:根据预测到的值进行分类,正数则为正例,反之同理,即

\[z=g(y) \approx w^Tx+b \]

\[y = \begin{cases} 0, & z < 0; \\ 0.5, & z = 0; \\ 1, & z > 0 \end{cases} \]

  • 但是\(g^-\)不可导,所以我们就换用了和上述函数形式很像,但是连续的对数几率函数$$y=\frac{1}{1+e^{-z}}$$
  • 反解解出\(g\),得到此式,是一种对数(\(\ln\))几率(odds)回归模型$$\ln \frac{y}{1-y} = w^Tx+b$$

概念与定义:

  • 几率(odds):正反例可能性比值\(\frac{y}{1-y}\)
  • 对数几率(log odds):正反例可能性比值\(\ln \frac{y}{1-y}\)

计算:

如何确定预测函数中的\(w\)\(b\)
核心思想:极大似然估计法
对于一个sample x

y(类别) 0 1
概率p \(p_0\) \(p_1\)

同时,根据

\[\ln \frac{p(y = 1 \mid \boldsymbol{x})}{p(y = 0 \mid \boldsymbol{x})} = \boldsymbol{w}^\mathrm{T} \boldsymbol{x} + b \ \]

得到\(p_0,p_1\)

\[p(y = 1 \mid \boldsymbol{x}) = \frac{e^{\boldsymbol{w}^\mathrm{T} \boldsymbol{x} + b}}{1 + e^{\boldsymbol{w}^\mathrm{T} \boldsymbol{x} + b}} \,, \]

\[p(y = 0 \mid \boldsymbol{x}) = \frac{1}{1 + e^{\boldsymbol{w}^\mathrm{T} \boldsymbol{x} + b}} \ \]

一通化简+似然估计操作得到以下目标

\[argmax_{\beta}l(\beta)= \sum_{i=1}^{m} \left( -y_i \boldsymbol{\beta}^\mathrm{T} \hat{\boldsymbol{x}}_i + \ln \left( 1 + e^{\boldsymbol{\beta}^\mathrm{T} \hat{\boldsymbol{x}}_i} \right) \right)\]

为高阶可导连续凸函数,根据最优化算法理论,可以使用梯度下降法/牛顿法得到最优解

3.4 线性判别分析(LDA)

基本思想:

  • 找一条直线,把我们的样本点全部投影到这条直线上,根据投影点的位置来确定样本的类别
  • 一个好的直线应该实现同类样本投影点尽量近,同时两类样本投影点应该尽量远
  • 转化为数学语言是:同类样例协方差尽量小,类中心举例尽量大

计算:

定义 “类内散度矩阵” (within-class scatter matrix)
把所有类自己的协方差加起来

\[\begin{align*} \mathbf{S}_w &= \boldsymbol{\Sigma}_0 + \boldsymbol{\Sigma}_1 \\ &= \sum_{\boldsymbol{x} \in X_0} (\boldsymbol{x} - \boldsymbol{\mu}_0)(\boldsymbol{x} - \boldsymbol{\mu}_0)^\mathrm{T} + \sum_{\boldsymbol{x} \in X_1} (\boldsymbol{x} - \boldsymbol{\mu}_1)(\boldsymbol{x} - \boldsymbol{\mu}_1)^\mathrm{T} \end{align*} \]

定义 “类间散度矩阵” (between-class scatter matrix)

\[\mathbf{S}_b = (\boldsymbol{\mu}_0 - \boldsymbol{\mu}_1)(\boldsymbol{\mu}_0 - \boldsymbol{\mu}_1)^\mathrm{T}, \]

我们想要最大化的目标

\[\begin{align*} J &= \frac{\|\boldsymbol{w}^\mathrm{T} \boldsymbol{\mu}_0 - \boldsymbol{w}^\mathrm{T} \boldsymbol{\mu}_1\|_2^2}{\boldsymbol{w}^\mathrm{T} \boldsymbol{\Sigma}_0 \boldsymbol{w} + \boldsymbol{w}^\mathrm{T} \boldsymbol{\Sigma}_1 \boldsymbol{w}} \\ &= \frac{\boldsymbol{w}^\mathrm{T} (\boldsymbol{\mu}_0 - \boldsymbol{\mu}_1) (\boldsymbol{\mu}_0 - \boldsymbol{\mu}_1)^\mathrm{T} \boldsymbol{w}}{\boldsymbol{w}^\mathrm{T} (\boldsymbol{\Sigma}_0 + \boldsymbol{\Sigma}_1) \boldsymbol{w}} \end{align*} \]

可简写成 $$ J = \frac{\boldsymbol{w}^\mathrm{T} \mathbf{S}_b \boldsymbol{w}}{\boldsymbol{w}^\mathrm{T} \mathbf{S}_w \boldsymbol{w}} $$
问题转化为求解以下最优化问题:

\[argmax_w J = \frac{\boldsymbol{w}^\mathrm{T} \mathbf{S}_b \boldsymbol{w}}{\boldsymbol{w}^\mathrm{T} \mathbf{S}_w \boldsymbol{w}} \]

使用最优化相关的知识和步骤去求解,得到结果

\[\boldsymbol{w} = \mathbf{S}_w^{-1} (\boldsymbol{\mu}_0 - \boldsymbol{\mu}_1) \]

Remark: 根据贝叶斯决策理论,LDA是有效的,当两类数据同先验,满足高斯分布且协方差相等时,LDA可达到最优分类

多分类任务的推广

“类内散度矩阵” (within-class scatter matrix)

\[\mathbf{S}_w = \sum_{i=1}^{N} \mathbf{S}_{w_i} \]

“类间散度矩阵” (between-class scatter matrix)

\[\begin{align*} \mathbf{S}_b &= \mathbf{S}_t - \mathbf{S}_w \\ &= \sum_{i=1}^{N} m_i (\boldsymbol{\mu}_i - \boldsymbol{\mu})(\boldsymbol{\mu}_i - \boldsymbol{\mu})^\mathrm{T} \end{align*} \]

\(m_i\) 是第 \(i\) 类样本的数量 )

“全局散度矩阵”

\[\begin{align*} \mathbf{S}_t &= \mathbf{S}_b + \mathbf{S}_w \\ &= \sum_{i=1}^{m} (\boldsymbol{x}_i - \boldsymbol{\mu})(\boldsymbol{x}_i - \boldsymbol{\mu})^\mathrm{T}, \end{align*} \]

此时的优化目标

\[\max_W\frac{tr(W^TS_bW)}{tr(W^TS_wW)} \]

根据最优化理论解得

\[S_bW=\lambda S_wW \]

再根据最优化理论求得\(W\)的闭式解是\(S_w^{-1}S_b\)\(N-1\)个最大广义特征值所对应的特征向量组成的矩阵

posted @ 2025-07-25 11:47  米加  阅读(13)  评论(0)    收藏  举报