3. 线性模型

1. 一元线性回归

1.1 原理

\[y = ax + b \]

1.2 最小二乘估计

基于均方误差最小化来进行模型求解的方法称为“最小二乘法

\[\begin{aligned} E_{(w, b)} & =\sum_{i=1}^{m}\left(y_{i}-f\left(x_{i}\right)\right)^{2} \\ & =\sum_{i=1}^{m}\left(y_{i}-\left(w x_{i}+b\right)\right)^{2} \\ & =\sum_{i=1}^{m}\left(y_{i}-w x_{i}-b\right)^{2} \end{aligned} \]

书中的\((w^*,b^*) =arg min_{(w,b)}\sum_{i=1}^{m}\left(y_{i}-w x_{i}-b\right)^{2}\)就是指求“欧氏距离”最小的w和b
求解w和b其本质上是一个多元函数求最值的问题,更具体点是凸函数求最值的问题

1.3 极大似然估计

用途:估计概率分布的参数值方法
对于离散型(连续型) 随机变量\(X\),假设其概率质量函数为\(P(x;\theta)\)(概率密度函数为\(p(x;\theta)\)),其中0为待估计的参数值(可以有多个)。现有\(x_1,x_2,x_3,...,x_n\)是来自\(X\)的n个独立同分布的样本,它们的联合概率为

\[L( \theta) = \prod \limits_{i=1}^{n}P{( x_i ; \theta)} \]

其中\(x_1,x_2,x_3,...,x_n\)是已知量,\(\theta\)是未知量,因此以上概率是一个关于\(\theta\)的函数\(L(\theta)\)为样本的似然函数。极大似然估计的直观想法: 使得观测样本出现概率最大的分布就是待求分布,也即使得联合概率(似然函数)$L( \theta) $取到最大值的\(0^*\)即为\(0\)的估计值。

1.4 机器学习三要素

机器学习三要素
1.模型:根据具体问题,确定假设空间
2.策略:根据评价标准确定选取最优模型的策略 (通常会产出一个“损失函数”)
3.算法:求解损失函数

2. 多元线性回归

\[\begin{aligned} f(x) &= w_1x_1+w_2x_2+\cdots+w_nx_n+b \\ &= w_1x_1+w_2x_2+\cdots+w_nx_n+w_{n+1}*1 \\ &= \begin{pmatrix} w_1& w_2 & \ldots & w_n & w_{n+1} \end{pmatrix} \begin{pmatrix} x_1\\ x_2\\ \cdots \\ x_n \\ 1 \end{pmatrix} \end{aligned} \]

即得到:

其中,3-9公式的推导:

3-10公式的推导:
先将\(E_{\hat{\boldsymbol{w}}}\)展开,再对 $\hat{\boldsymbol{w}} $ 求导可得

\[\frac{\partial E_{\hat{\boldsymbol{w}}}}{\partial \hat{\boldsymbol{w}}}=\frac{\partial \boldsymbol{y}^{\mathrm{T}} \boldsymbol{y}}{\partial \hat{\boldsymbol{w}}}-\frac{\partial \boldsymbol{y}^{\mathrm{T}} \mathbf{X} \hat{\boldsymbol{w}}}{\partial \hat{\boldsymbol{w}}}-\frac{\partial \hat{\boldsymbol{w}}^{\mathrm{T}} \mathbf{X}^{\mathrm{T}} \boldsymbol{y}}{\partial \hat{\boldsymbol{w}}}+\frac{\partial \hat{\boldsymbol{w}}^{\mathrm{T}} \mathbf{X}^{\mathrm{T}} \mathbf{X} \hat{\boldsymbol{w}}}{\partial \hat{\boldsymbol{w}}} \]

由矩阵微分公式 $ \frac{\partial \boldsymbol{a}^{\mathrm{T}} \boldsymbol{x}}{\partial \boldsymbol{x}}=\frac{\partial \boldsymbol{x}^{\mathrm{T}} \boldsymbol{a}}{\partial \boldsymbol{x}}=\boldsymbol{a}, \frac{\partial \boldsymbol{x}^{\mathrm{T}} \mathbf{A} \boldsymbol{x}}{\partial \boldsymbol{x}}=\left(\mathbf{A}+\mathbf{A}^{\mathrm{T}}\right) \boldsymbol{x} $可得

\[\begin{array}{c} \frac{\partial E_{\hat{\boldsymbol{w}}}}{\partial \hat{\boldsymbol{w}}}=0-\mathbf{X}^{\mathrm{T}} \boldsymbol{y}-\mathbf{X}^{\mathrm{T}} \boldsymbol{y}+\left(\mathbf{X}^{\mathrm{T}} \mathbf{X}+\mathbf{X}^{\mathrm{T}} \mathbf{X}\right) \hat{\boldsymbol{w}} \\ \frac{\partial E_{\hat{\boldsymbol{w}}}}{\partial \hat{\boldsymbol{w}}}=2 \mathbf{X}^{\mathrm{T}}(\mathbf{X} \hat{\boldsymbol{w}}-\boldsymbol{y}) \end{array} \]

3. 对数线性回归

“对数线性回归”(log-linear regression)实际上是在试图让 \(e^{w^{T}x+b}\)逼近,在形式上仍是线性回归,但实质上已是在求取输入空间到输出空间的非线性函数映射

4. 对数几率回归

原理:在线性模型的基础上套一个映射来实现分类功能

\[y = \frac{1}{1 + e^{-z}} \]

此时为一个S型函数,\(y\in[0,1]\)

推导得到损失函数:

对数几率回归算法的机器学习三要素
1.模型:线性模型,输出值的范围为[0,1],近似阶跃的单调可微函数
2.策略:极大似然估计,信息论
3.算法:梯度下降,牛顿法

5. 二分类线性判别分析

线性判别分析(Linear Discriminant Analysis,简称 LDA)是一种经典的线性学习方法,在二分类问题上因为最早由[Fisher,1936] 提出,亦称“Fisher 判别分析”
LDA 的思想非常朴素: 给定训练样例集,设法将样例投影到一条直线上使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离;在对新样本进行分类时,将其投影到同样的这条直线上,再根据投影点的位置来确定新样本的类别。
下图为一个二维示意图:

广义瑞利商:

posted @ 2023-10-18 01:11  乐池  阅读(19)  评论(0)    收藏  举报