5. 机器学习技法--Kernel Logistic Regression

Lecture 5：Kernel Logistic Regression

5.1 Soft-Margin SVM as Regularized Model

图 5-1

Soft-Margin SVM 的 loss function 很像之前提到的 L2 regularization? 那么 Soft-Margin SVM loss function 也有类似 L2 Regularization 的效果吧，记得我们引入 Soft-Margin SVM 的原因就是因为 Hard-Margin SVM 会将数据完全分开从而导致过拟合。从这点上来说， Soft-Margin SVM loss function 和 L2 regularization 起到的效果一样。即 Soft-Margin SVM as Regularized Model 。为什么要把 SVM 看成是 regularized model_Q1 呢？这样我们可以用 SVM 去 extending/connection to other learning models！

5.2 SVM versus Logistic Regression

现在我们来看下 Soft-Margin SVM loss function 和 linear score loss function 间的关系

图 5-2

从图 5-2 中可以看出， Soft-Margin SVM 的 loss function （准确来说 C 项）是 linear score loss function 的上界（Soft-Margin SVM 的 C 项能把 margin violation 多少计算进去， linear score 只根据 score 的正负来取值）。如果我们把 scaled LR loss function 也放上去，结果如图 5-3 所示

图 5-3

可以看出 SCE loss function 和 Soft-Margin SVM 的 loss function 很相似，这样就有一下的结果

SVM ≈ L2-regularizated Logistic Regression （既然如此，为什么要用 Soft-Margin SVM ，毕竟 SVM 要比 LR 难计算！，从另外一个角度来看了，如果 SVM 和 L2 LR 如此相似，能不能用 SVM 做 Soft-Binary Classification 呢？）

现在我们来对比以前学过 3 个算法，如图 5-4 所示

图 5-5

5.3 SVM for Soft Binary Classification

图 5-6 两种 Naive Idea

在图 5-6 中左半图中，$w^T_{SVM}x + b_{SVM}$ 是个固定值没有办法求极大似然。这种算法不能算是 LR！。右半图中 SVM 起的作用只是给 LR 计算提供一个初始值，这个算法和 SVM 的关系不大！

有一种可行的将 SVM 和 LR 结合在一起方法，如图 5-7 所示。通过新增两个变量 A，B 。我们可以用极大似然来求适合的 A， B。这样就等于把 SVM 和 LR 结合成一个新的算法！

图 5-7 New LogReg

在图 5-7 所示的算法中， Kernel SVM 起的做用是什么？是将数据从 x-space map 到 z-space ？如果是这样的话，我们能不能直接在 z-space 中做 logreg ?

5.4 Kernel Logisitc Regression

图 5-8

从图 5-8 中可以看出 LR 的 w 表达式和 SVM 中 w 的表达式是一样的，这是不是代表 LR 也可以用 Kernel Triicks？

图 5-9

对于任意一个 L2 regularized linear model 都能用 Kernel Trick！这样代表 LR 也可以用 Kernel Trick。

Another View of KLR

图 5-10

图 5-10 中公式前一项换种方式就是 $\betak\beta^T$，可以从另外一个角度来看 KLR。当然也可以用这个视角去看 SVM

图 5-11

题外话：

T1：《技法》中 SVM 相关话题占了很大的篇幅（6/16）！

Q1：《统计学习方法》提到通过 minized 经验风险来获得最适合的模型，在《西瓜书》中提到 SVM 通过最小化结构化风险来获得最适合的模型（可能我记错了）。当时完全不知所云，到今天才算看懂了（求不喷）。在《基石》的笔记中，我提过一个问题即正则化表达式是不是一定类似 L2、L1 这样根据 w 矩阵某些特性（非 0 个数，非 0 项的和）算出来的？今天看来不是，也不应该是。因为根据 w 的特性只能限制 w 的复杂度，不能限制 feature transfermation 引入的复杂度。后续还应该能可以看到新 regulartion method

T2：第四小节的笔记写的不好～～一天之内写了 2.5 篇笔记，累！

posted @ 2018-01-07 14:43 tmortred 阅读(291) 评论(0) 收藏举报

刷新页面返回顶部

tmortred