摘要:Foundations of Machine Learning: The Margin Explanation for Boosting's Effectiveness 在这一节,我们要回答的一个问题是:什么样的分类器用于预测未知数据会更让人信服?而要回答这个问题,我们首先得量化“信服”这个概念。那...
阅读全文
随笔分类 - 机器学习
介绍机器学习的基本知识
摘要:Foundations of Machine Learning: The Margin Explanation for Boosting's Effectiveness 在这一节,我们要回答的一个问题是:什么样的分类器用于预测未知数据会更让人信服?而要回答这个问题,我们首先得量化“信服”这个概念。那...
阅读全文
摘要:Foundations of Machine Learning: Boosting Boosting是属于自适应基函数(Adaptive basis-function Model(ABM))中的一种模型。自适应基函数可以表示成:$$f(x)=w_0+\sum_{m=1}^Mw_m\phi_m(x)....
阅读全文
摘要:Foundations of Machine Learning: Rademacher complexity and VC-Dimension(2)(一) 增长函数(Growth function) 在引入增长函数之前,我们先介绍一个例子,这个例子会有助于理解增长函数这个东西。在input spac...
阅读全文
摘要:Foundations of Machine Learning: Rademacher complexity and VC-Dimension(1) 前面两篇文章中,我们在给出PAC-learnable定理时,都有一个前提假设,那就是 Hypothesis set 是有限的。但很明显,在实际中的假设...
阅读全文
摘要:Foundations of Machine Learning: The PAC Learning Framework(2)(一)假设集有限在一致性下的学习界。 在上一篇文章中我们介绍了PAC-learnable的定义,以及证明了一个例子是PAC-learnable。 这一节我们介绍当hypothe...
阅读全文
摘要:写在最前:本系列主要是在阅读 Mehryar Mohri 等的最新书籍《Foundations of Machine Learning》以及 Schapire 和 Freund 的 《Boosting: Foundations and Algorithms》过程中所做的笔记。主要讨论三个部分的内容。...
阅读全文
摘要:VC定理的证明 本文讨论VC理论的证明,其主要内容就是证明VC理论的两个定理,所以内容非常的枯燥,但对于充实一下自己的理论知识也是有帮助的。另外,VC理论属于比较难也比较抽象的知识,所以我总结的这些证明难免会有一些错误,希望各位能够帮我指出。(一)简单版本的VC理论。 给定一个集合系统$(U,\ma...
阅读全文
摘要:学习理论——VC维的定义以及一些例子 本文主要介绍一些学习理论上的东西。首先,我们得明确,从训练集上学习出来的分类器的最终目标是用于预测未知的样本,那么我们在训练的时候该用多少的样本才能使产生的分类器的效果尽可能的好呢?这些就是VC-理论要解决的问题。在介绍这个理论之前,我们得先介绍一个比较抽象的概...
阅读全文
摘要:一些机器学习算法的简介 本节开始,介绍《Computer Science Theory for the Information Age》一书中第六章(这里先暂时跳过第三章),主要涉及学习以及学习的理论——VC理论。而本文主要是介绍一下什么是学习,以及一些常见的学习算法。(一)学习概念 首先,我们用一个例子来介绍什么是学习。假设我们想要用一个算法来识别不同类型的车,比如小汽车、卡车、拖拉机等。根据我们的思维以及对这个领域的知识可知道,我们可以用一系列特征来区分它们,比如我们可以用轮子的数量,发动机的动力,门的数量,车的长度,座位的数量等等来区分。假如我们有$d$个特征,那么我们可以用一个$d$-
阅读全文
摘要:高维空间中的高斯分布和随机投影(一)在高维球体表面产生均匀分布点的方法 我们来考虑一个采样问题,就是怎样在高维单位球体的表面上均匀的采样。首先,考虑二维的情况,就是在球形的周长上采样。我们考虑如下方法:第一,先在一个包含该圆形的外接正方形内均匀的采样;第二,将采样到的点投影到圆形上。具体地说就是,第一,先独立均匀的从区间$[-1,1]$(我们假设圆形跟正方形的中心点都在原点)内产生两个值组成一个二维的点$(x_1,x_2)$;第二,将该二维点投影到圆形上。例如,如下图所示,如果我们产生点是图中的A,B两点,那么投影到圆形上就是C点,如果产生的是点D,那么投影到圆形上就是E点。但是,用这样的方法
阅读全文
摘要:高维空间中的正方体和Chernoff Bounds 本文将介绍高维空间中正方体的一些性质,以及一个非常常见也是非常有用的概率不等式——Chernoff Bounds。 考虑$d$维单位正方体$C=\{x|0\leq x_i\leq 1,i=1,\cdots,d\}$,其中心点为$(\frac{1}{2},\cdots,\frac{1}{2})$,体积为1。现在我们将其半径收缩到$1-\frac{c}{d}$,其体积为$(1-\frac{c}{d})^d\leq e^{-c}$,所以当$d$很大时,高维正方体的体积总是分布在其边缘地带。 定义超平面$H=\{x|\sum_{i=1}^dx_i=\
阅读全文
摘要:高维空间中的球体 注:此系列随笔是我在阅读图灵奖获得者John Hopcroft的最新书籍所作的笔记。其中我只详细读了第二(高维空间)、三(随机图)、六(VC理论)章,其他的某些章节也略微看了一下,但没有作笔记。此书的章节大部分是相互独立的,事实上每一个章节都是一个大的方向,代表了作者认为的在信息时代中最有用的计算机理论。(一)介绍 第一部分,高维空间。在现实的世界里,很多数据的维度都是及其高的,而当维度增高时,很多在低维中的性质在高维中似乎不太一样了。比如当维度趋近无穷时,单位超球的体积趋于0,而其面积大都集中在超球的赤道附近(equator)。 首先,来看一下在现实中有那些数据是高维的。第
阅读全文
摘要:Kernel典型相关分析(一)KCCA 同样,我们可以引入Kernel函数,通过非线性的坐标变换达到之前CCA所寻求的目标。首先,假设映射$\Phi_X: x\rightarrow \Phi_X(x), \Phi_Y: y\rightarrow \Phi_Y(y)$,记$\mathbf{\Phi_X}=(\Phi_X(x_1),\Phi_X(x_2),\cdots,\Phi_X(x_p))^\prime, \mathbf{\Phi_Y}=(\Phi_Y(y_1),\Phi_Y(y_2),\cdots,\Phi_Y(y_q))^\prime$。我们要寻找典型变量$u,v$使相关系数最大,其中$u
阅读全文
摘要:典型相关分析(一)引入 典型相关分析(Canonical Correlation Analysis)是研究两组变量之间相关关系的一种多元统计方法。他能够揭示出两组变量之间的内在联系。 我们知道,在一元统计分析中,用相关系数来衡量两个随机变量的线性相关关系,用复相关系数研究一个随机变量与多个随机变量的线性相关关系。然而,这些方法均无法用于研究两组变量之间的相关关系,于是提出了CCA。其基本思想和主成分分析非常相似。首先,在每组变量中寻找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数;然后选取和已经挑选出的这对线性组合不相关的另一对线性组合,并使其相关系数最大,如此下去,直到两组变量的
阅读全文
摘要:Kernel Principal Components Analysis PCA实际上就是对原坐标进行正交变换,使得变换后的坐标之间相互无关,并且尽可能保留多的信息。但PCA所做的是线性变换,对于某些数据可能需要通过非线性变换,比如在二维空间下对如下数据进行处理。如果还是采用最初的PCA,则得到的主成分是$z_1,z_2$,而这里的$z_1,z_2$都包含了大量的信息,故无法去掉任何一个坐标,也就达不到降维的目的。而此时如果采用极坐标变换(属于非线性变换),我们就可以尽用一条坐标包含大量的信息(每一数据点都可以用不同的角度来表示)。 故而我们引入Kernel PCA,将原空间通过映射,投影到特
阅读全文
摘要:Principal Components Analysis (一)引入PCA 当我们对某个系统或指标进行研究时往往会发现,影响这些系统和指标的因素或变量的数量非常的多。多变量无疑会为科学研究带来丰富的信息,但也会在一定程度上增加工作的难度,而通常变量之间又具有一定的相关性,这又增加了问题分析的复杂度。如果分别分析每个变量,那么分析又不够综合,而盲目的减少变量又会损失很多有用的信息。因而我们自然而然想到能否用较少的新变量去代替原来较多的旧变量(即降维),同时使这些新变量又能够尽可能保留原来旧变量所反映的信息,另外又能保证这些新变量之间是相互无关的。 而PCA就是在这样的一个背景下用于解决上述问题
阅读全文
摘要:The Sequential Minimal Optimization Algorithm (SMO)本文主要介绍用于解决SVM对偶模型的算法,它于1998年由John Platt在论文“Sequential Minimal Optimization:A Fast Algorithm for Training Support Vector Machines”中提出的。这篇笔记还参考了某篇博客,但由于是一年前的事了,暂时没找到这篇博客,所以没有引用出来,希望该篇博客的主人见谅。(1)解决的问题。 SMO 算法解决的是 soft SVM 对偶问题。其模型为:\begin{align}\matho.
阅读全文
摘要:Soft Margin SVM(1)Recall 之前分析到SVM的模型为:\begin{align}\mathop{\min}&\quad \frac{1}{2}w^\prime w\nonumber\\\mathop{s.t}&\quad y_i(x_i^\prime w+b)\geq 1, i=1,2,\cdots,m\label{model:SVM}\end{align} 利用Lagrange乘子法转化为对偶问题:\begin{align}\mathop{\max}&\quad \theta(\alpha)=\sum_{i}\alpha_i-\frac{1}{2
阅读全文
摘要:The Solutions of Nonlinear Equation 本文主要介绍几种用于解非线性方程$f(x)=0$的一些方法。(1) Bisection Method. 算法:step 1: 初始化$a,b(b>a)$,使$f(a),f(b)$异号。step 2: while (停止条件不满足) $p=a+\frac{b-a}{2}$; 若 $f(p)f(a)a,g(b)0,\lambda, \lim_{n\to\infty}\frac{\tilde{p_{n+1}}-p}{(\tilde{p_n}-p)^\alpha}=\lambda$$由于Aitken's $\De..
阅读全文
摘要:Kernels 我们首先来回顾kernel函数的定义:一个函数$K(x,y)$为kernel函数当且仅当对$\forall g, \int K(x,y)g(x)g(y)dxdy\geq 0$成立。另外,根据Mercer's theorem,存在一个映射$\Phi$使$K(x,y)=\langle \Phi(x),\Phi(y)\rangle$,并且对任意有限的点,kernel矩阵是半正定的。一、核函数的封闭性 Hadamard product:$$\mathbf{A}\circ\mathbf{B}=\left[\begin{array}&a_{11}b_{11}&a_{
阅读全文
|