5. 机器学习技法--Kernel Logistic Regression

Lecture 5:Kernel Logistic Regression

5.1 Soft-Margin SVM as Regularized Model

 

                               图  5-1

        Soft-Margin SVM 的 loss function 很像之前提到的 L2 regularization? 那么 Soft-Margin SVM loss function 也有类似 L2 Regularization 的效果吧,记得我们引入 Soft-Margin SVM 的原因就是因为 Hard-Margin SVM 会将数据完全分开从而导致过拟合。从这点上来说, Soft-Margin SVM loss function 和 L2 regularization 起到的效果一样。即 Soft-Margin SVM as Regularized Model 。为什么要把 SVM 看成是 regularized modelQ1 呢?这样我们可以用 SVM 去 extending/connection to other learning models!

5.2 SVM versus Logistic Regression

现在我们来看下 Soft-Margin SVM loss function 和 linear score loss function 间的关系

                       图 5-2

从图 5-2 中可以看出,  Soft-Margin SVM 的 loss function (准确来说 C 项)是 linear score loss function 的上界(Soft-Margin SVM 的 C 项能把  margin violation 多少计算进去, linear score 只根据 score 的正负来取值)。如果我们把 scaled LR loss function 也放上去,结果如图 5-3 所示

                             图 5-3

可以看出 SCE loss function 和 Soft-Margin SVM 的 loss function 很相似,这样就有一下的结果

SVM ≈ L2-regularizated Logistic Regression (既然如此,为什么要用 Soft-Margin SVM ,毕竟 SVM 要比 LR 难计算!,从另外一个角度来看了,如果 SVM 和 L2 LR 如此相似,能不能用 SVM 做 Soft-Binary Classification 呢?)

现在我们来对比以前学过 3 个算法,如图 5-4 所示

                                         图 5-5

 

5.3 SVM for Soft Binary Classification

                       图 5-6 两种 Naive Idea

在图 5-6 中左半图中,$w^T_{SVM}x + b_{SVM}$ 是个固定值没有办法求极大似然。这种算法不能算是 LR!。右半图中 SVM 起的作用只是给 LR 计算提供一个初始值,这个算法和 SVM 的关系不大!

有一种可行的将 SVM 和 LR 结合在一起方法,如图 5-7 所示。通过新增两个变量 A,B 。我们可以用极大似然来求适合的 A, B。这样就等于把 SVM 和 LR 结合成一个新的算法!

                            图 5-7 New LogReg

在图 5-7 所示的算法中, Kernel SVM 起的做用是什么?是将数据从 x-space map 到 z-space ? 如果是这样的话,我们能不能直接在 z-space 中做 logreg ?

5.4 Kernel Logisitc Regression

                                                  图 5-8 

从图 5-8 中可以看出 LR 的 w 表达式和 SVM 中 w 的表达式是一样的,这是不是代表 LR 也可以用 Kernel Triicks?

                                       图  5-9 

对于任意一个 L2 regularized linear model 都能用 Kernel Trick!这样代表 LR 也可以用 Kernel Trick。

Another View of KLR

 

                                                  图  5-10 

图 5-10 中公式前一项换种方式就是 $\betak\beta^T$, 可以从另外一个角度来看 KLR。当然也可以用这个视角去看 SVM

                                      图  5-11 

 

题外话:

T1: 《技法》中 SVM 相关话题占了很大的篇幅(6/16)!

Q1:《统计学习方法》提到通过 minized 经验风险来获得最适合的模型,在《西瓜书》中 提到 SVM 通过最小化结构化风险来获得最适合的模型(可能我记错了)。当时完全不知所云,到今天才算看懂了(求不喷)。在《基石》的笔记中,我提过一个问题即正则化表达式是不是一定类似 L2、L1 这样根据 w 矩阵某些特性(非 0 个数,非 0 项的和)算出来的?今天看来不是,也不应该是。因为根据 w 的特性只能限制 w 的复杂度,不能限制 feature transfermation 引入的复杂度。后续还应该能可以看到新 regulartion method 

T2: 第四小节的笔记写的不好~~一天之内写了 2.5 篇笔记,累!

 

posted @ 2018-01-07 14:43  tmortred  阅读(291)  评论(0)    收藏  举报