随笔分类 -  机器学习

摘要:11.1 概述 MLlib的设计理念非常简单,把数据以RDD的形式表示,然后分布式数据集上调用各种算法。 需要注意的是,MLlib中只包含能够在集群上运行良好的并行算法。有些经典的机器学习算法没有包含在其中,就是因为他们不嗯给你并行执行。相反地,一些较新的研究得出的算法因为适用于集群,也被包含在ML 阅读全文
posted @ 2017-01-26 16:42 cyoutetsu 阅读(189) 评论(0) 推荐(0)
摘要:单层神经网络。加权的过程在这里进行的两次,取正负号的函数也进行了两次。 可以对每一个g到G的过程进行逻辑运算(and,or,not),数学表达如下: 虽然上面的算法很强大,但是还是有些东西算不出来,例如XOR: 但是如果再多加一层的话,就可以达到了: 这就是多层的神经网络。 每一个圆圈g都是一个no 阅读全文
posted @ 2016-10-08 19:09 cyoutetsu 阅读(238) 评论(0) 推荐(0)
摘要:AdaBoost D Tree有了新的权重的概念。 现在的优化目标,如何进行优化呢? 不更改算法的部门,而想办法在输入的数据方面做修改。 权重的意义就是被重复取到的数据的次数。这样的话,根据权重的比例进行重复的抽样。最后的结果也和之前一样能够表达权重的意义在里面了。 在一个fully grown t 阅读全文
posted @ 2016-10-08 16:53 cyoutetsu 阅读(330) 评论(0) 推荐(0)
摘要:随机森林是将bagging和decision tree结合在一起的算法。 random forest同样也继承了两个算法的优点,但是同时也解决了过拟合的缺点。 通过降维的方式来提高运算的速度。 每一个低维度的空间都可以看成是原feature的一个线性组合,由高维度向低维度的转换的过程是随机的,这样又 阅读全文
posted @ 2016-10-08 15:24 cyoutetsu 阅读(460) 评论(0) 推荐(0)
摘要:国庆过完,继续干活~ 下面总结了几个ensemble的模型的本质,顺便调出决策树的概念: 在不同的情形下,用不同的g的一种方式。 蓝色的部分是leaf,也就是base hypothesis。 内部决策的过程叫做node。通常是很简单的决定。 或者: 递回的概念,一棵树可以用其他的几棵树来代表。 决策 阅读全文
posted @ 2016-10-08 13:48 cyoutetsu 阅读(279) 评论(0) 推荐(0)
摘要:本节课主要讲解AdaBoost算法。 步骤: 1. 先产生一个表现一般或者不好的分类器,将这个分类器发生的错误进行权重的放大; 2. 对上一轮被方法的错误再一次产生另一个分类器进行学习,再一次产生错误并放大进入下一轮; 3. 重复以上步骤,直到表现令人满意。 先利用bootstrap进行有放回抽样产 阅读全文
posted @ 2016-09-30 09:51 cyoutetsu 阅读(237) 评论(0) 推荐(0)
摘要:Ensemble模型的基础概念。 先总结归纳几个aggregation的常见形式: 多选一的形式特别需要那几个里面有一个表现好的,如果表现都不太好的时候,几个模型融合到一起真的会表现好吗? 左图:如果只能用垂直的线和水平的线做分类,结果肯定不是太好,但是如果能把垂直的线和水平的线结合起来,就有可能做 阅读全文
posted @ 2016-09-29 23:31 cyoutetsu 阅读(2692) 评论(1) 推荐(1)
摘要:http://www.cnblogs.com/xbf9xbf/p/4643291.html 阅读全文
posted @ 2016-09-29 22:29 cyoutetsu 阅读(191) 评论(0) 推荐(0)
摘要:回顾一下soft margin SVM的知识: 然而从另一个角度来看,分为真的有犯错和没有犯错: 在没有犯错的时候,ξn=0就好了。于是ξn就可以写成一个求max的过程。根据这个思路,我们有了SVM的新形式: 这样一来,ξn就不再是一个独立的变量,它变成了一个由b和w决定的变量,这样的话,式子又被简 阅读全文
posted @ 2016-09-29 22:26 cyoutetsu 阅读(326) 评论(0) 推荐(0)
摘要:即便是有了margin的控制,SVM还是会有overfit。 如果我们坚持严格地将数据分开,那我们就免不了连noise一起算进去,这样就产生了过拟合。 和之前pocket的算法类似,我们可以不那么坚持严格地分界线。我们可以容忍一些错误,退而求其次,找一条犯错误最小的分类线。 所以: 最佳化的式子前半 阅读全文
posted @ 2016-09-29 21:45 cyoutetsu 阅读(283) 评论(0) 推荐(0)
摘要:根据上一次推导出来的问题: 从计算的角度来说,如果维度太大,向量z的内积求解起来非常的耗时耗力。 我们可以把这个过程分拆成两个步骤,先是一个x空间到z空间的转换Φ,再在z空间里做内积。如果能把这两个步骤合起来算得快一点的话就可以避开这个大计算量。 x和x'转换了再做内积: 这样的方法可以算得比较快, 阅读全文
posted @ 2016-09-29 17:21 cyoutetsu 阅读(700) 评论(0) 推荐(0)
摘要:本节课主要讲述对偶的SVM。 上一节课讲了如何用二次规划的技法解决低维度的SVM的问题,那么当我们把维度升高甚至是无限大的维度的时候,原本的二次规划问题解起来代价太大,这样的SVM又该怎么解呢? 右图的SVM是左图的SVM的对偶形式。 在之前介绍正则化的时候,我们引入了拉格朗日乘子去解决一个有条件的 阅读全文
posted @ 2016-09-29 16:16 cyoutetsu 阅读(424) 评论(0) 推荐(0)
摘要:线性支持向量机。 在这种分类问题中,我们需要选一条最“胖”的线,而这条最胖的线就是margin largest的线。 我们的优化目标就是最大化这个margin。也就是在最小化每一个点到这条线的距离。这个距离怎么计算呢? 为了以后不会混淆,w0就不整合成向量w了,另外取一个新名字b。同样地,x0=1也 阅读全文
posted @ 2016-09-28 21:18 cyoutetsu 阅读(1498) 评论(0) 推荐(0)
摘要:1. Occam's Razor Entities must not be multiplied beyond necessity. 如无必要,勿增实体。 我们要寻找简单的hypothesis和简单的模型: 简单的效果: 2. Sampling Bias 如果我们原始数据是由bias的,那么我们通过 阅读全文
posted @ 2016-09-28 17:00 cyoutetsu 阅读(195) 评论(0) 推荐(0)
摘要:本节课主要讲述怎样在模型和参数之间做选择。 把已知的数据中分出一部分来当做validation的数据,用来验证我们hypothesis的表现。 validation和真实Eout的差距: 我们用validation得到最好的模型之后,再把所有的数据合起来再去做训练,因为N变大了,所以得到的结果的Eo 阅读全文
posted @ 2016-09-28 16:45 cyoutetsu 阅读(193) 评论(0) 推荐(0)
摘要:本节课主要讲述正则化。 既然我们说高复杂度的函数和低复杂度的函数是包含的关系,那我们通过'step back'的方式退回去就好了。 那么怎么样退回去呢? 其实,高次多项式和低次多项式的差别就在于w。只要我们限制了有多少个为零的w,就可以间接控制多项式的复杂度。转化成最优化的视角,就是找一些w使得Ei 阅读全文
posted @ 2016-09-28 15:59 cyoutetsu 阅读(317) 评论(0) 推荐(0)
摘要:本节课程主要讲述过拟合。 VC Dimension过大的时候会发生Bad Generalization,也就是Ein很低,但是Eout很高的情况。没有办法做举一反三的学习。 Ein越做越好,但是Eout却上升了。这种情况叫做过拟合。 欠拟合就是做的不好的情况,通过增加VC Dimension可以解决 阅读全文
posted @ 2016-09-28 13:44 cyoutetsu 阅读(345) 评论(0) 推荐(0)
摘要:本节课重要讲述非线性的问题怎么样才能变成线性的分类问题。 到目前为止,我们会用模型进行线性的分类(左图),但是遇到右图的样子的时候,还是不能用一条线将它们分开。 但是右图视觉上,明显是可以用一个圆来进行分类的,假设一个半径为0.6的圆: 将上面的方程式进行展开和赋值,通过转换,再一次把圆形的方程式换 阅读全文
posted @ 2016-09-28 11:42 cyoutetsu 阅读(553) 评论(0) 推荐(0)
摘要:先复习一下已经学过的三个模型: 和他们关于error的衡量: 三种error的关系: 加上VC理论: 如此就证明了regression是可以用来替代classification的。下面是几种方法的优缺点: linear regression看起来是一个不错的方法,我们可以用它来设定PLA或者LR的w 阅读全文
posted @ 2016-09-28 10:41 cyoutetsu 阅读(214) 评论(0) 推荐(0)
摘要:如果我们想要知道的并不是绝对的是或者非,我们只想知道在是非发生的概率(只想知道概率,不想知道结果)是多少的时候: 虽然我们想要知道左边的完美数据,但是在实际生活中,我们只有右边的数据,也就是一些确定的结果,不可能有概率值这个事情让我们知道。而右边的数据可以看成是有噪声的不完美的数据。 怎么解决这样的 阅读全文
posted @ 2016-09-28 09:28 cyoutetsu 阅读(427) 评论(0) 推荐(0)