线性模型,logistic模型

  1. 线性模型 \(y=w^T*x+b\)\(w\)为什么要转置?

1.1. 假设只有一个样本 \((x_1,y_1)\),样本有三个特征 \(x=\begin{bmatrix} x^1\\ x^2\\ x^3 \end{bmatrix}\),则模型表示为 \(y_1=(w^1,w^2,w^3) * \begin{bmatrix} x^1_1\\ x^2_1\\ x^3_1 \end{bmatrix}+b_1\)$。若 \(w、x\)是行向量,则应该是 \(w*x^T\)才是一个数。若 \(w、x\)是列向量,则应该是 \(w^T*x\)才是一个数。书中一般使用的是列向量,所以模型应该表示为 \(y=w^T*x+b\)

1.2. 假设有 \(n\)个样本,每个样本有 \(m\)个特征,则模型表示为

\[(y_1,y_2,\cdots,y_n)=(w^1,w^2,\cdots,w^m)*(\mathbf{x_1},\mathbf{x_2},\cdots,\mathbf{x_n})+(b_1,b_2,\cdots,b_n) \]

也可以表示为

\[(y_1,y_2,\cdots,y_n)=(w^1,w^2,\cdots,w^m)*\begin{bmatrix} x^1_1 & x^1_2 & \cdots & x^1_n\\ x^2_1 & x^2_2 & \cdots & x^2_n\\ \vdots &\vdots & \vdots\\ x^m_1 & x^m_2 & \cdots & x^m_n \end{bmatrix}+(b_1,b_2,\cdots,b_n)\]

  1. \(logistic\)回归模型(也叫对数几率回归)与线性模型的区别?

2.1. \(logistic\)回归模型是分类模型,线性模型是回归模型。
\(logistic\)回归的模型是条件概率的形式,而线性模型是函数形式。
对于二分类问题, \(y=\begin{cases} &0&, &w^T*x+b<0\\ &0.5&, &w^T*x+b=0\\ &1&, &w^T*x+b>0 \end{cases}\),即 \(w^T*x+b>0\)时,判为正例, \(w^T*x+b<0\)时,判为负例, \(w^T*x+b=0\)时,可以任意判别。
二项 \(logistic\)回归模型

\[P(Y=1|x)=\left(\frac{e^{w^T*x+b}}{1+e^{w^T*x+b}} \right) \]

\[P(Y=0|x)=\left(\frac{1}{1+e^{w^T*x+b}} \right) \]

2.2. 线性模型的学习策略是均方误差最小化,而 \(logistic\)回归模型的学习策略是最大化对数似然函数。前者的均方误差为

\[E(w,b)=\sum_{i=1}^N (y_i-w^T*x_i-b)^2 \]

后者的似然函数为

\[L(w,b)=\prod_{i=1}^N P(Y=1|x)^{y_i}*P(Y=0|x)^{1-y_i} \]

对数似然转化为了

\[\ln L(w,b)=\sum_{i=1}^N y_i*\ln P(Y=1|x)+(1-y_i)*\ln P(Y=0|x) \]

\[\quad =\sum_{i=1}^N \left[y_i*(w^T*x_i+b)-\ln (1+e^{w^T*x_i+b})\right] \]

等价于求最小化的

\[\ln L(w,b) =\sum_{i=1}^N \left[-y_i*(w^T*x_i+b)+\ln (1+e^{w^T*x_i+b})\right] \]

2.3.线性模型的求解方法为最小二乘法或求导推出,而 \(logistic\)回归模型的求解方法为梯度下降法或牛顿法等。
前者对 \(E(w,b)\)\(w、b\)分别求导等于零,并把 \(b\)式带入回 \(w\)式得

\[\hat{w}=\frac {\sum_{i=1}^N y_i(x_i-\bar{x})}{\sum_{i=1}^N x_i^2 - \frac{1}{N}(\sum_{i=1}^N x_i)^2} \]

\[\hat{b}=\frac{1}{N} \sum_{i=1}^N(y_i-w*x_i) \]

后者用了牛顿法

\[\beta=(w,b) \]

\[f(\beta)=\ln L(\beta) \]

\[\beta^{k+1}=\beta^{k}-\frac{f'(\beta)}{f''(\beta)} \]

2.4.线性模型的决策函数 \(\hat{y}=\hat{w}*x+\hat{b}\),输入一个 \(x\),经计算后输出一个定量的值。
\(logistic\)回归模型的决策函数 \(\hat{y}=argmax(P(y=k|x)) \text{其中k=0,1}\), 输入一个 \(x\),经计算和比较输出一个定性的值。

2.5.第1点是从模型角度,第2点是策略角度,第3点是算法角度,第4点是从输出角度。

posted @ 2020-08-27 22:39  Da熊猫  阅读(387)  评论(0)    收藏  举报