随笔分类 -  Machine learning/机器学习

机器学习笔记,主要参考斯坦福的教程和李航的统计学习方法
摘要:1.KNN原理:存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一个数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中最相似数据(最近邻)的分类标签。一般来说,只选择样本数据集中前 $... 阅读全文
posted @ 2015-11-06 22:07 90Zeng 阅读(10289) 评论(0) 推荐(1)
摘要:1.k近邻算法的思想给定一个训练集,对于新的输入实例,在训练集中找到与该实例最近的k个实例,这k个实例中的多数属于某个类,就把该输入实例分为这个类。因为要找到最近的k个实例,所以计算输入实例与训练集中实例之间的距离是关键!k近邻算法最简单的方法是线性扫描,这时要计算输入实例与每一个训练实例的距离,当... 阅读全文
posted @ 2015-01-05 02:16 90Zeng 阅读(15185) 评论(4) 推荐(9)
摘要:1. 引言与PCA类似,Independent Components Analysis(ICA)同样是要找到一组新基去表示数据。但是目标大不相同。为了阐述动机,举一个例子,考虑“鸡尾酒会问题”。在酒会上,有 n 个演讲者同时讲话,房间里面的每一个麦克风都会记录所有演讲者声音混合起来的音频,但是由于每... 阅读全文
posted @ 2014-11-23 12:59 90Zeng 阅读(2179) 评论(1) 推荐(2)
摘要:在因子分析(Factor analysis)中,介绍了一种降维概率模型,用EM算法(EM算法原理详解)估计参数。在这里讨论另外一种降维方法:主元分析法(PCA),这种算法更加直接,只需要进行特征向量的计算,不需要用到EM算法。 假设数据集表示 m 个不同类型汽车的属性,比如最大速度,转弯半径等... 阅读全文
posted @ 2014-11-22 15:16 90Zeng 阅读(3411) 评论(0) 推荐(2)
摘要:1.引言在高斯混合和EM算法中,我们运用EM算法拟合混合模型,但是我们得考虑得需要多少的样本数据才能准确识别出数据中的多个高斯模型!看下面两种情况的分析:第一种情况假如有 m 个样本,每个样本的维度是 n, 如果 n»m, 这时哪怕拟合出一个高斯模型都很困难,更不用说高斯混合, 为什么呢? 这和解... 阅读全文
posted @ 2014-11-21 21:46 90Zeng 阅读(8605) 评论(0) 推荐(3)
摘要:1.引言以前我们讨论的概率模型都是只含观测变量(observable variable), 即这些变量都是可以观测出来的,那么给定数据,可以直接使用极大似然估计的方法或者贝叶斯估计的方法;但是当模型含有隐变量(latent variable)的时候, 就不能简单地使用这些估计方法。如在高斯混合和EM... 阅读全文
posted @ 2014-11-20 14:33 90Zeng 阅读(9213) 评论(0) 推荐(1)
摘要:尝试用最简单易懂的描述解释清楚机器学习中会用到的拉格朗日对偶性知识 阅读全文
posted @ 2014-11-09 14:14 90Zeng 阅读(95347) 评论(22) 推荐(66)
摘要:一、引言最近写了许多关于机器学习的学习笔记,里面经常涉及概率论的知识,这里对所有概率论知识做一个总结和复习,方便自己查阅,与广大博友共享,所谓磨刀不误砍柴工,希望博友们在这篇博文的帮助下,阅读机器学习的相关文献时能够更加得心应手!这里只对本人觉得经常用到的概率论知识点做一次小结,主要是基本概念,因为... 阅读全文
posted @ 2014-11-01 21:31 90Zeng 阅读(5127) 评论(1) 推荐(3)
摘要:首先介绍高斯混合模型:高斯混合模型是指具有以下形式的概率分布模型:一般其他分布的混合模型用相应的概率密度代替(1)式中的高斯分布密度即可。给定训练集,我们希望构建该数据联合分布这里,其中是概率,并且,用表示可能的取值。因此,我们构建的模型就是假设是由生成,而是从中随机选择出来的,那么就服从个依赖于的... 阅读全文
posted @ 2014-10-30 20:17 90Zeng 阅读(3543) 评论(3) 推荐(0)
摘要:给定训练集$\{x^{(1)},...,x^{(m)}\}$,想把这些样本分成不同的子集,即聚类,$x^{(i)}\in\mathbb{R^{n}}$,但是这是个无标签数据集,也就是说我们再聚类的时候不能利用标签信息,所以这是一个无监督学习问题。k-means聚类算法的流程如下:1. 随机初始化聚类... 阅读全文
posted @ 2014-10-28 18:31 90Zeng 阅读(19248) 评论(2) 推荐(5)
摘要:到目前为止,我们使用的学习方法都是批量学习(batch learning)方式,即首先给定训练集学习出拟合假设函数中的参数,然后评价的效果的时候使用独立的测试集。本篇博文将会介绍一种在线学习(online learning)方式,即算法必须在学习的过程中不断地作出预测,而不是批量学习方式一样,学习过... 阅读全文
posted @ 2014-10-16 10:45 90Zeng 阅读(1433) 评论(0) 推荐(1)
摘要:一、引言对于一个学习问题,可以假设很多不同的模型,我们要做的是根据某一标准选出最好的模型。例如,在多项式回归中,对于我们的假设模型,我们最要紧的是决定 k 到底取多少合适,能不能有一种方法可以自动选择出可以在偏差和方差(关于偏差和方差的理论,参考:学习理论)之间做出均衡的模型?为了具体讨论,本文中假... 阅读全文
posted @ 2014-10-15 20:37 90Zeng 阅读(2648) 评论(0) 推荐(0)
摘要:1. 偏差和方差平衡在线性回归中,对于同一个数据集,可以拟合出简单的线性模型或者较为复杂一些的多项式例如:图中的训练样本是一致的,但是可以拟合出不同的模型。最右边图中拟合出的5阶多项式,并不见得就是一个好模型,虽然该模型能够准确预测出样本点的y值,因为这种模型过分拟合了训练样本(过拟合),当对非训练... 阅读全文
posted @ 2014-10-11 23:39 90Zeng 阅读(2439) 评论(0) 推荐(0)
摘要:目录:1.间隔2.符号标记3.函数间隔和几何间隔(Functional and geometric margins)4.最佳间隔分类器5.拉格朗日对偶(Lagrange duality)6.最佳间隔分类器(续4)7.核学习8.正则化和不可分样例(Regularization and the non-... 阅读全文
posted @ 2014-10-08 22:07 90Zeng 阅读(2172) 评论(0) 推荐(1)
摘要:考虑用机器学习建立一个邮件过滤系统,来将邮件分成垃圾邮件和非垃圾邮件。首先我们建立一个词典,里面包含了邮件中所有的不重复单词。我们用长度为词典中单词数目的特征向量来表示一封邮件。如下所示:表示一封邮件,如果该邮件包含有词典中的第i个单词,那么,否则.为了建模,作一个很强的假设,假设词典中的每个单词是... 阅读全文
posted @ 2014-10-07 23:41 90Zeng 阅读(2804) 评论(0) 推荐(0)
摘要:考虑一个分类问题:根据一个动物的特征来区分该动物是大象(y=1)还是狗(y = 0).利用逻辑回归找到一条直线,即分界线,将训练集中的大象和狗分开,当给定一个新的动物特征时,检查该动物位于分界线的哪一边,然后做出判断是大象,还是狗,就是对p(y|x;θ)进行建模。这里我们来看另一种不同的思路,首先根... 阅读全文
posted @ 2014-10-07 21:48 90Zeng 阅读(3616) 评论(6) 推荐(0)
摘要:考虑一个多分类问题,即预测变量y可以取k个离散值中的任何一个.比如一个邮件分类系统将邮件分为私人邮件,工作邮件和垃圾邮件。由于y仍然是一个离散值,只是相对于二分类的逻辑回归多了一些类别。下面将根据多项式分布建模。考虑将样本共有k类,每一类的概率分别为,由于,所以通常我们只需要k-1个参数即可,为了推... 阅读全文
posted @ 2014-10-07 15:41 90Zeng 阅读(2877) 评论(0) 推荐(0)
摘要:开始,首先下载数据ex4Data.zip假设该数据集代表着一所高中学生中40名被大学录取,而另外40名没有被大学录取。每一个训练样例(x(i),y(i))包含一个学生的两科标准考试成绩以及是否被录取的标签。现在需要建立一个分类模型,要求根据学生的两科考试成绩,来判断学生被录取的概率。画出数据:x =... 阅读全文
posted @ 2014-10-07 11:52 90Zeng 阅读(1343) 评论(0) 推荐(0)
摘要:在逻辑回归之问题建模分析中我们提到最大化参数θ的最大化似然函数可以用梯度下降法,对参数进行更新直至上面的对数似然函数收敛。下面引入另一种方法:牛顿方法。开始,首先我们考虑如何找到一个函数的零点。也就是我们有一个函数:,我们希望找到一个值θ,使得.我们首先随机取某一点(x,f(x)),那么f(x)在该... 阅读全文
posted @ 2014-10-07 10:34 90Zeng 阅读(924) 评论(0) 推荐(0)
摘要:首先,我们引入分类问题,其实分类问题和回归问题很相似,只是分类问题中我们要预测的y值是有限数量的离散值,而不是回归问题中的连续值。为了说明,我们现在只讨论二分类问题,也就是说y只能取0和1两种值。对于这种二分类问题,当然也可以用线性回归去学习,然后根据给的的x预测出y,只是当预测出的y大于1或者小于... 阅读全文
posted @ 2014-10-06 22:40 90Zeng 阅读(1196) 评论(1) 推荐(0)