公告

随笔分类 - Jordan Lecture Note

Jordan机器学习讲义的读书笔记

Jordan Lecture Note-12: Kernel典型相关分析(Kernel Canonical Correlation Analysis, KCCA).

摘要：Kernel典型相关分析（一）KCCA 同样，我们可以引入Kernel函数，通过非线性的坐标变换达到之前CCA所寻求的目标。首先，假设映射$\Phi_X: x\rightarrow \Phi_X(x), \Phi_Y: y\rightarrow \Phi_Y(y)$，记$\mathbf{\Phi_X}=(\Phi_X(x_1),\Phi_X(x_2),\cdots,\Phi_X(x_p))^\prime, \mathbf{\Phi_Y}=(\Phi_Y(y_1),\Phi_Y(y_2),\cdots,\Phi_Y(y_q))^\prime$。我们要寻找典型变量$u,v$使相关系数最大，其中$u 阅读全文

posted @ 2014-03-09 21:49 Boostable 阅读(3344) 评论(2) 推荐(3)

Jordan Lecture Note-11: 典型相关分析(Canonical Correlation Analysis, CCA).

摘要：典型相关分析（一）引入典型相关分析（Canonical Correlation Analysis）是研究两组变量之间相关关系的一种多元统计方法。他能够揭示出两组变量之间的内在联系。我们知道，在一元统计分析中，用相关系数来衡量两个随机变量的线性相关关系，用复相关系数研究一个随机变量与多个随机变量的线性相关关系。然而，这些方法均无法用于研究两组变量之间的相关关系，于是提出了CCA。其基本思想和主成分分析非常相似。首先，在每组变量中寻找出变量的线性组合，使得两组的线性组合之间具有最大的相关系数；然后选取和已经挑选出的这对线性组合不相关的另一对线性组合，并使其相关系数最大，如此下去，直到两组变量的阅读全文

posted @ 2014-03-02 13:32 Boostable 阅读(5095) 评论(4) 推荐(7)

Jordan Lecture Note-10: Kernel Principal Components Analysis (KPCA).

摘要：Kernel Principal Components Analysis PCA实际上就是对原坐标进行正交变换，使得变换后的坐标之间相互无关，并且尽可能保留多的信息。但PCA所做的是线性变换，对于某些数据可能需要通过非线性变换，比如在二维空间下对如下数据进行处理。如果还是采用最初的PCA，则得到的主成分是$z_1,z_2$，而这里的$z_1,z_2$都包含了大量的信息，故无法去掉任何一个坐标，也就达不到降维的目的。而此时如果采用极坐标变换（属于非线性变换），我们就可以尽用一条坐标包含大量的信息（每一数据点都可以用不同的角度来表示）。故而我们引入Kernel PCA，将原空间通过映射，投影到特阅读全文

posted @ 2014-02-25 20:34 Boostable 阅读(913) 评论(0) 推荐(1)

Jordan Lecture Note-9: Principal Components Analysis (PCA).

摘要：Principal Components Analysis （一）引入PCA 当我们对某个系统或指标进行研究时往往会发现，影响这些系统和指标的因素或变量的数量非常的多。多变量无疑会为科学研究带来丰富的信息，但也会在一定程度上增加工作的难度，而通常变量之间又具有一定的相关性，这又增加了问题分析的复杂度。如果分别分析每个变量，那么分析又不够综合，而盲目的减少变量又会损失很多有用的信息。因而我们自然而然想到能否用较少的新变量去代替原来较多的旧变量（即降维），同时使这些新变量又能够尽可能保留原来旧变量所反映的信息，另外又能保证这些新变量之间是相互无关的。而PCA就是在这样的一个背景下用于解决上述问题阅读全文

posted @ 2014-02-23 18:23 Boostable 阅读(828) 评论(0) 推荐(0)

Jordan Lecture Note-8: The Sequential Minimal Optimization Algorithm (SMO).

摘要：The Sequential Minimal Optimization Algorithm (SMO)本文主要介绍用于解决SVM对偶模型的算法，它于1998年由John Platt在论文“Sequential Minimal Optimization:A Fast Algorithm for Training Support Vector Machines”中提出的。这篇笔记还参考了某篇博客，但由于是一年前的事了，暂时没找到这篇博客，所以没有引用出来，希望该篇博客的主人见谅。（1）解决的问题。 SMO 算法解决的是 soft SVM 对偶问题。其模型为：\begin{align}\matho. 阅读全文

posted @ 2014-02-20 21:04 Boostable 阅读(1004) 评论(0) 推荐(0)

Jordan Lecture Note-7: Soft Margin SVM

摘要：Soft Margin SVM（1）Recall 之前分析到SVM的模型为：\begin{align}\mathop{\min}&\quad \frac{1}{2}w^\prime w\nonumber\\\mathop{s.t}&\quad y_i(x_i^\prime w+b)\geq 1, i=1,2,\cdots,m\label{model:SVM}\end{align} 利用Lagrange乘子法转化为对偶问题：\begin{align}\mathop{\max}&\quad \theta(\alpha)=\sum_{i}\alpha_i-\frac{1}{2 阅读全文

posted @ 2014-02-19 21:21 Boostable 阅读(1408) 评论(0) 推荐(0)

Jordan Lecture Note-6: The Solutions of Nonlinear Equation.

摘要：The Solutions of Nonlinear Equation 本文主要介绍几种用于解非线性方程$f(x)=0$的一些方法。（1） Bisection Method. 算法：step 1: 初始化$a,b(b>a)$，使$f(a),f(b)$异号。step 2: while (停止条件不满足) $p=a+\frac{b-a}{2}$；若 $f(p)f(a)a,g(b)0,\lambda, \lim_{n\to\infty}\frac{\tilde{p_{n+1}}-p}{(\tilde{p_n}-p)^\alpha}=\lambda$$由于Aitken's $\De.. 阅读全文

posted @ 2014-02-19 13:43 Boostable 阅读(680) 评论(0) 推荐(0)

Jordan Lecture Note-5: Kernels

摘要：Kernels 我们首先来回顾kernel函数的定义：一个函数$K(x,y)$为kernel函数当且仅当对$\forall g, \int K(x,y)g(x)g(y)dxdy\geq 0$成立。另外，根据Mercer's theorem，存在一个映射$\Phi$使$K(x,y)=\langle \Phi(x),\Phi(y)\rangle$，并且对任意有限的点，kernel矩阵是半正定的。一、核函数的封闭性 Hadamard product：$$\mathbf{A}\circ\mathbf{B}=\left[\begin{array}&a_{11}b_{11}&a_{ 阅读全文

posted @ 2014-02-14 15:39 Boostable 阅读(369) 评论(0) 推荐(0)

Jordan Lecture Note-4: Linear & Ridge Regression

摘要：Linear & Ridge Regression 对于$n$个数据$\{(x_1,y_1),(x_2,y_2),\cdots,(x_n,y_n)\},x_i\in\mathbb{R}^d,y_i\in\mathbb{R}$。我们采用以下矩阵来记上述数据：\begin{equation}\math... 阅读全文

posted @ 2014-02-14 12:11 Boostable 阅读(771) 评论(0) 推荐(0)

Jordan Lecture Note-3: 梯度投影法

摘要：Jordan Lecture Note-3：梯度投影法在这一节，我们介绍如何用梯度投影法来解如下的优化问题： \begin{align} \mathop{\min}&\quad f(x)\nonumber\\\mathop{s.t.}&\quad \mathbf{A}_1 x\leq b_1\no 阅读全文

posted @ 2014-02-12 16:28 Boostable 阅读(7348) 评论(0) 推荐(0)

Jordan Lecture Note-2: Maximal Margin Classifier

摘要：Maximal Margin Classifier Logistic Regression 与 SVM 思路的不同点：logistic regression强调所有点尽可能远离中间的那条分割线，而SVM则强调最靠近分割线的点于分割线的距离仅可能的远。定义间隔函数：$\hat{r}^{(i)}=y^{(i)}(w^\prime x^{(i)}+b)$。当$y^{(i)}=1$时，$w^\prime x^{(i)}+b>0$；当$y^{(i)}=-1$时，$w^\prime x^{(i)}+b0$。注意，同时扩大$w,b$，那么所有点的间隔都会扩大相同倍数，这并不影响问题的求解。定义样本的阅读全文

posted @ 2014-02-11 17:11 Boostable 阅读(812) 评论(0) 推荐(0)

Jordan Lecture Note-1: Introduction

摘要：Jordan Lecture Note-1： Introduction 第一部分要整理的是Jordan的讲义，这份讲义是我刚进实验室时我们老师给我的第一个任务，要求我把讲义上的知识扩充出去，然后每周都要讲给他听。如果有需要这份讲义的话，请留言，我会用邮件发给你。首先，我来说说机器学习这个东西。刚进实验室，我根本连什么是机器学习都不知道，听到这个名词后的第一反应是机器人，心想估计是搞硬件的。后来才发现其实机器学习更偏向于后面两个字，也就是“学习”。打个不恰当的比方吧，人类在婴儿时期，还无法对世上的东西进行识别，比如小汽车跟货车有什么区别？这时，婴儿的父母就会指着小汽车对他说，这是个小汽车... 阅读全文

posted @ 2014-02-09 21:36 Boostable 阅读(670) 评论(5) 推荐(0)

写在最前

摘要：一直以来都想开通一个博客来记录自己上研究生以来的学习过程，可每次都因为各种事情而耽搁着，总是以当前的事情为借口将其推迟，归根结底还是自己太懒了。考上研究生后，我莫名其妙的选择了机器学习这个方向，还好接触后对这个方向也蛮喜欢，所以也稍有点动力去学习它。我自认为不是一个特别勤奋，特别聪明的人，但这一年多来，我还是看了不少有关机器学习的书籍和论文，也做了不少相关的笔记，只可惜这些笔记都是手写的。而开通这个博客的主要目的也是将我的这些手写笔记整理成一篇篇博客，一来方便以后自己查阅；二来可以整理一下自己学习过的知识点；三来可以接受各位大牛的指点，以提高自己的水平。虽然我主要学习的方向是boos... 阅读全文

posted @ 2014-01-24 15:19 Boostable 阅读(394) 评论(1) 推荐(0)