Logistic和Linear Regression

Logistic Regression

Logistic Regression和Linear Regression

Logistic Regression	Linear Regression
$ f_{w,b}(x) = \sigma (w*x+ b)=\sigma (\sum_i w_ix_i + b), f输出0或1$	$ f_{w,b}(x) = \sum_i w_ix_i + b，f输出R$
$L(f) = \sum_n C(f(x^n), \hat{y}^n)，\hat{y}^n是0或1$	$L(f) = \frac{1}{2}\sum_n (f(x^n)-\hat{y}^n)^2，\hat{y}^n是真实值$
$w_i \leftarrow w_i -\eta \sum_n-(\hat{y}^n-f_{w,b}(x^n))x_i^n$	$w_i \leftarrow w_i -\eta \sum_n-(\hat{y}^n-f_{w,b}(x^n))x_i^n$

Logistic Regression推导

\[如果P_{w,b}(C_1|x) \leq 0.5,输出C_2.否则输出C_1\\ z=w\times x+b, \quad P_{w,b}(C_1|x) = \sigma(z),\quad \sigma(z) = \frac{1}{1+e^{-z}}\\ f_{w,b}(x) = P_{w,b}(C_1|x) \]

$Training$	$x^1$	$x^2$	$x^3$	$...$	$x^N$
$Data$	$C_1$	$C_2$	$C_3$	$...$	$C_N$

对于上面的分类，有代价函数：

\[p(x=1)=\hat{y}^n, \quad p(x=0)=1-\hat{y}^n\\ L(w,b)=f_{w,b}(x^1)f_{w,b}(x^2)(1-f_{w,b}(x^3))...f_{w,b}(x^N)\\ 取对数有： lnL(w,b)=lnf_{w,b}(x^1)+lnf_{w,b}(x^2)+ln(1-f_{w,b}(x^3))+...\\ =\sum_n-[\hat{y}^nlnf_{w,b}(x^n)+ (1-\hat{y}^n)ln(1-f_{w,b}(x^n)) ]\\ C(f(x^n), \hat{y}^n)=-[\hat{y}^nlnf_{w,b}(x^n)+ (1-\hat{y}^n)ln(1-f_{w,b}(x^n)) ]\\ L(f) = \sum_n C(f(x^n), \hat{y}^n) \]

更新：

\[\frac{\partial~lnL(w,b)}{\partial w_i} = \frac{\partial ~lnL(w,b)}{\partial z}\frac{z}{\partial~w_i}\\ =\sum_n-(\hat{y}^n-f_{w,b}(x^n))x_i^n \]

Logistic Regression如果用平方代价函数

\[f_{w,b}(x) = \sigma (\sum_i w_ix_i + b)\\ L(f) = \frac{1}{2}\sum_n (f_{w,b}(x^n)-\hat{y}^n)^2\\ 求偏导，有：\\ \frac{\partial L(f)}{\partial w_i}=\frac{\partial(f_{w,b}(x)-\hat{y})^2}{\partial w_i}=2(f_{w,b}-\hat{y})f_{w,b}(x)(1-f_{w,b}(x)) \]

Logistic Resgression的局限

无法解决异或问题
针对异或问题，可以通过叠加logistic regression来解决，这样子就成了neural network

生成模型和判别模型

Discriminative

原理

判别式模型是直接对条件概率 $p(y|x;\theta)$ 建模。

常见的判别模型

常见的判别式模型有：线性回归模型、线性判别分析、支持向量机SVM、神经网络等。

优点

（1）分类边界更灵活，比使用纯概率方法或生产模型得到的更高级；
（2）能清晰的分辨出多类或某一类与其他类之间的差异特征；
（3）在聚类、视角变化、部分遮挡、尺度改变等方面效果较好；
（4）适用于较多类别的识别；
（5）判别模型的性能比生成模型要简单，比较容易学习。

缺点

（1）不能反映训练数据本身的特性，即能力有限，可以告诉你的是1还是2，但没有办法把整个场景描述出来；
（2）缺少生成模型的优点，即先验结构的不确定性；
（3）黑盒操作，即变量间的关系不清楚，不可视。

Generative

原理

生成式模型则会对 $x$ 和 $y$ 的联合分布 $ p(x,y)$ 建模，然后通过贝叶斯公式来求得 $p(y_i|x)$ ，然后选取使得 $p(y_i|x)$ 最大的 $y_i$ 。

优点

（1）实际上带的信息要比判别模型丰富；
（2）研究单类问题比判别模型灵活性强；
（3）模型可以通过增量学习得到；
（4）能用于数据不完整情况；
（5）很容易将先验知识考虑进去。

缺点

（1）容易会产生错误分类；
（2）学习和计算过程比较复杂。

常见的生成模型

常见的生成模型有：隐马尔可夫模型HMM、朴素贝叶斯模型、高斯混合模型GMM、LDA等

softmax

输入：$z_1, z_2, z_3, ... ,z_n$

输出：$y_1, y_2, y_3, ... ,y_n$

\[y_1 = \frac{e^{z_1}}{\sum^{n}_{i=1}e^{z_i}} \]

用途：

常用来进行多分类，因为softmax可以放大输入间的差距，因此，用来多分类效果比较好。

posted @ 2019-03-06 16:58 hello.world！阅读(370) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

Logistic Regression	Linear Regression
$ f_{w,b}(x) = \sigma (w*x+ b)=\sigma (\sum_i w_ix_i + b), f输出0或1$	$ f_{w,b}(x) = \sum_i w_ix_i + b，f输出R$
\(L(f) = \sum_n C(f(x^n), \hat{y}^n)，\hat{y}^n是0或1\)	\(L(f) = \frac{1}{2}\sum_n (f(x^n)-\hat{y}^n)^2，\hat{y}^n是真实值\)
\(w_i \leftarrow w_i -\eta \sum_n-(\hat{y}^n-f_{w,b}(x^n))x_i^n\)	\(w_i \leftarrow w_i -\eta \sum_n-(\hat{y}^n-f_{w,b}(x^n))x_i^n\)

hello.world!