3 线性模型

本文根据西瓜书内容整理而成，并参考了以下资料：

Datawhale南瓜书https://www.datawhale.cn/learn/content/2/65

3.1 基本形式

示例 $x=(x_1,x_2,\dots;x_d)$，那么我们所获得的预测函数形式为

\[f(x)=\omega_1x_1+\omega_2x_2+\dots+\omega_dx_d+b \]

也可以写成$$f(x)=w^{T}x+b$$
Remark: 直观且很好解释

3.2 线性回归

抽象属性与属性值的转化：

有序的概念时转化为数字{1,0.5,0}，比如身高
无序的概念转化为多个维度，(0,0,1)(0,1,0)这种

线性回归目标：

\[f(x_i)=wx_i+b \Rightarrow f(x_i) \approx y_i \]

key: 如何评估尽量的相似？
均方误差：$$argmin_{w,b} ||f(x)-y||_2$$
Remark:

一个很标准的最优化问题
同时也是极其经典的最小二乘法问题
从正则化方程角度来分析，由于求解过程中常出现不满秩情况，所以常用引入正则化项
类似高中数学常用思想，$$y = wx_i+b \Rightarrow \ln y = wx_i+b$$则此称为对数线性回归，同理继续扩展，有广义线性模型$$y = wx_i+b \Rightarrow g(y) = wx_i+b$$

3.3 对数几率回归

基本思想：

线性回归问题解决的是对函数值的预测，但分类任务要的是类别
想法：根据预测到的值进行分类，正数则为正例，反之同理，即

\[z=g(y) \approx w^Tx+b \]

\[y = \begin{cases} 0, & z < 0; \\ 0.5, & z = 0; \\ 1, & z > 0 \end{cases} \]

但是$g^-$不可导，所以我们就换用了和上述函数形式很像，但是连续的对数几率函数$$y=\frac{1}{1+e^{-z}}$$
反解解出$g$，得到此式，是一种对数($\ln$)几率(odds)回归模型$$\ln \frac{y}{1-y} = w^Tx+b$$

概念与定义：

几率(odds)：正反例可能性比值$\frac{y}{1-y}$
对数几率(log odds)：正反例可能性比值$\ln \frac{y}{1-y}$

计算：

如何确定预测函数中的$w$与$b$？
核心思想：极大似然估计法
对于一个sample x

y（类别）	0	1
概率p	$p_0$	$p_1$

同时，根据

\[\ln \frac{p(y = 1 \mid \boldsymbol{x})}{p(y = 0 \mid \boldsymbol{x})} = \boldsymbol{w}^\mathrm{T} \boldsymbol{x} + b \ \]

得到$p_0,p_1$

\[p(y = 1 \mid \boldsymbol{x}) = \frac{e^{\boldsymbol{w}^\mathrm{T} \boldsymbol{x} + b}}{1 + e^{\boldsymbol{w}^\mathrm{T} \boldsymbol{x} + b}} \,, \]

\[p(y = 0 \mid \boldsymbol{x}) = \frac{1}{1 + e^{\boldsymbol{w}^\mathrm{T} \boldsymbol{x} + b}} \ \]

一通化简+似然估计操作得到以下目标

\[argmax_{\beta}l(\beta)= \sum_{i=1}^{m} \left( -y_i \boldsymbol{\beta}^\mathrm{T} \hat{\boldsymbol{x}}_i + \ln \left( 1 + e^{\boldsymbol{\beta}^\mathrm{T} \hat{\boldsymbol{x}}_i} \right) \right)\]

为高阶可导连续凸函数，根据最优化算法理论，可以使用梯度下降法/牛顿法得到最优解

3.4 线性判别分析（LDA）

基本思想：

找一条直线，把我们的样本点全部投影到这条直线上，根据投影点的位置来确定样本的类别
一个好的直线应该实现同类样本投影点尽量近，同时两类样本投影点应该尽量远
转化为数学语言是：同类样例协方差尽量小，类中心举例尽量大

计算：

定义 “类内散度矩阵” (within-class scatter matrix)
把所有类自己的协方差加起来

\[\begin{align*} \mathbf{S}_w &= \boldsymbol{\Sigma}_0 + \boldsymbol{\Sigma}_1 \\ &= \sum_{\boldsymbol{x} \in X_0} (\boldsymbol{x} - \boldsymbol{\mu}_0)(\boldsymbol{x} - \boldsymbol{\mu}_0)^\mathrm{T} + \sum_{\boldsymbol{x} \in X_1} (\boldsymbol{x} - \boldsymbol{\mu}_1)(\boldsymbol{x} - \boldsymbol{\mu}_1)^\mathrm{T} \end{align*} \]

定义 “类间散度矩阵” (between-class scatter matrix)

\[\mathbf{S}_b = (\boldsymbol{\mu}_0 - \boldsymbol{\mu}_1)(\boldsymbol{\mu}_0 - \boldsymbol{\mu}_1)^\mathrm{T}, \]

我们想要最大化的目标

\[\begin{align*} J &= \frac{\|\boldsymbol{w}^\mathrm{T} \boldsymbol{\mu}_0 - \boldsymbol{w}^\mathrm{T} \boldsymbol{\mu}_1\|_2^2}{\boldsymbol{w}^\mathrm{T} \boldsymbol{\Sigma}_0 \boldsymbol{w} + \boldsymbol{w}^\mathrm{T} \boldsymbol{\Sigma}_1 \boldsymbol{w}} \\ &= \frac{\boldsymbol{w}^\mathrm{T} (\boldsymbol{\mu}_0 - \boldsymbol{\mu}_1) (\boldsymbol{\mu}_0 - \boldsymbol{\mu}_1)^\mathrm{T} \boldsymbol{w}}{\boldsymbol{w}^\mathrm{T} (\boldsymbol{\Sigma}_0 + \boldsymbol{\Sigma}_1) \boldsymbol{w}} \end{align*} \]

可简写成 $$ J = \frac{\boldsymbol{w}^\mathrm{T} \mathbf{S}_b \boldsymbol{w}}{\boldsymbol{w}^\mathrm{T} \mathbf{S}_w \boldsymbol{w}} $$
问题转化为求解以下最优化问题：

\[argmax_w J = \frac{\boldsymbol{w}^\mathrm{T} \mathbf{S}_b \boldsymbol{w}}{\boldsymbol{w}^\mathrm{T} \mathbf{S}_w \boldsymbol{w}} \]

使用最优化相关的知识和步骤去求解，得到结果

\[\boldsymbol{w} = \mathbf{S}_w^{-1} (\boldsymbol{\mu}_0 - \boldsymbol{\mu}_1) \]

Remark: 根据贝叶斯决策理论，LDA是有效的，当两类数据同先验，满足高斯分布且协方差相等时，LDA可达到最优分类

多分类任务的推广

“类内散度矩阵” (within-class scatter matrix) ：

\[\mathbf{S}_w = \sum_{i=1}^{N} \mathbf{S}_{w_i} \]

“类间散度矩阵” (between-class scatter matrix)：

\[\begin{align*} \mathbf{S}_b &= \mathbf{S}_t - \mathbf{S}_w \\ &= \sum_{i=1}^{N} m_i (\boldsymbol{\mu}_i - \boldsymbol{\mu})(\boldsymbol{\mu}_i - \boldsymbol{\mu})^\mathrm{T} \end{align*} \]

（$m_i$ 是第 $i$ 类样本的数量）

“全局散度矩阵”：

\[\begin{align*} \mathbf{S}_t &= \mathbf{S}_b + \mathbf{S}_w \\ &= \sum_{i=1}^{m} (\boldsymbol{x}_i - \boldsymbol{\mu})(\boldsymbol{x}_i - \boldsymbol{\mu})^\mathrm{T}, \end{align*} \]

此时的优化目标

\[\max_W\frac{tr(W^TS_bW)}{tr(W^TS_wW)} \]

根据最优化理论解得

\[S_bW=\lambda S_wW \]

再根据最优化理论求得$W$的闭式解是$S_w^{-1}S_b$的$N-1$个最大广义特征值所对应的特征向量组成的矩阵

posted @ 2025-07-25 11:47 米加阅读(13) 评论(0) 收藏举报

刷新页面返回顶部

Loading

mikaaa-blog

3 线性模型

本文根据西瓜书内容整理而成，并参考了以下资料：

3.1 基本形式

3.2 线性回归

3.3 对数几率回归

基本思想：

概念与定义：

计算：

3.4 线性判别分析（LDA）

基本思想：

计算：

多分类任务的推广

公告