随笔分类 - 基础机器学习算法

K-最邻近算法总结

摘要：1.基本介绍 K最近邻(k-Nearest Neighbor，KNN)分类算法，是一个理论上比较成熟的方法，也是最简单的机器学习算法之一。该方法的思路是：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。KNN算法中，所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。 KNN方法虽然从原理上也依赖于极限定理，但在类别决策时，只与极少量的相邻样本有关。由于KNN方法主要靠周围有限的邻近的样本，而不是靠判别类域的方法来确定所属类别的，因此对于类域的交叉或重叠较多的待分样阅读全文

posted @ 2012-07-24 19:00 as_ 阅读(11330) 评论(0) 推荐(1)

决策树算法总结

摘要：参考：《机器学习》Tom版以及http://blog.csdn.net/v_july_v/article/details/7577684一、简介决策树是一个预测模型；他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象，而每个分叉路径则代表的某个可能的属性值，而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出，若欲有复数输出，可以建立独立的决策树以处理不同输出。数据挖掘中决策树是一种经常要用到的技术，可以用于分析数据，同样也可以用来作预测（就像上面的银行官员用他来预测贷款风险）。从数据产生决策树的机器学习技术叫做决策树学习, 通俗说就是决阅读全文

posted @ 2012-07-23 20:07 as_ 阅读(94436) 评论(4) 推荐(6)

EM聚类算法简介

摘要：大部分内容援引自别处有少许修改 EM聚类算法一般多用于为了对数据进行训练而确定相关公式中的参数1.一般概念介绍最大期望算法（Expectation-maximization algorithm，又译期望最大化算法）在统计中被用于寻找，依赖于不可观察的隐性变量的概率模型中，参数的最大似然估计。在统计计算中，最大期望（EM）算法是在概率（probabilistic）模型中寻找参数最大似然估计或者最大后验估计的算法，其中概率模型依赖于无法观测的隐藏变量（Latent Variable）。最大期望经常用在机器学习和计算机视觉的数据聚类（Data Clustering）领域。最大期望算法经过两个步骤交阅读全文

posted @ 2012-07-21 20:21 as_ 阅读(18032) 评论(0) 推荐(0)

K-means聚类算法(非MapReduce实现)

摘要：援引：http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006910.html1.概念 k-means 算法接受输入量 k ；然后将n个数据对象划分为 k个聚类以便使得所获得的聚类满足：同一聚类中的对象相似度较高；而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”（引力中心）来进行计算的。2.一般介绍聚类属于无监督学习，以往的回归、朴素贝叶斯、SVM等都是有类别标签y的，也就是说样例中已经给出了样例的分类。而聚类的样本中却没有给定y，只有特征x，比如假设宇宙中的星星可以表示成三维空间中的点集。聚类的目的阅读全文

posted @ 2012-07-21 18:44 as_ 阅读(3238) 评论(2) 推荐(0)

mahout下的K-Means Clustering实现

摘要：(借鉴于网络资料，有修改)一、概念介绍 K-means算法是硬聚类算法，是典型的局域原型的目标函数聚类方法的代表，它是数据点到原型的某种距离作为优化的目标函数，利用函数求极值的方法得到迭代运算的调整规则。K-means算法以欧式距离作为相似度测度，它是求对应某一初始聚类中心向量V最有分类，使得评价指标J最小。算法采用误差平方和准则函数作为聚类准则函数。 K-means算法是很典型的基于距离的聚类算法，采用距离作为相似性的评价指标，即认为两个对象的距离越近，其相似度就越大。该算法认为簇是由距离靠近的对象组成的，因此把得到紧凑且独立的簇作为最终目标。 k个初始类聚类中心点的选取对聚类结果具有较大. 阅读全文

posted @ 2012-07-20 16:22 as_ 阅读(6090) 评论(0) 推荐(0)

mahout下的Canopy Clustering实现

摘要：转自：http://www.cnblogs.com/vivounicorn/archive/2011/09/23/2186483.html为便于理解有修改一、基本思想1、基于Canopy Method的聚类算法将聚类过程分为两个阶段 Stage1、聚类最耗费计算的地方是计算对象相似性的时候，Canopy Method在第一阶段选择简单、计算代价较低的方法计算对象相似性，将相似的对象放在一个子集中，这个子集被叫做Canopy ，通过一系列计算得到若干Canopy，Canopy之间可以是重叠的，但不会存在某个对象不属于任何Canopy的情况，可以把这一阶段看做数据预处理； Stage2、在各个C 阅读全文

posted @ 2012-07-18 16:46 as_ 阅读(4704) 评论(2) 推荐(0)

Logistic Regression--逻辑回归算法汇总**

摘要：转自别处有很多与此类似的文章也不知道谁是原创因原文由少于错误所以下文对此有修改并且做了适当的重点标记(横线见的内容没大明白并且有些复杂，后面的运行流程依据前面的得出的算子进行分类)初步接触谓LR分类器(Logistic Regression Classifier)，并没有什么神秘的。在分类的情形下，经过学习之后的LR分类器其实就是一组权值w0,w1,...,wm. 当测试样本集中的测试数据来到时，这一组权值按照与测试数据线性加和的方式，求出一个z值：z = w0+w1*x1+w2*x2+...+wm*xm。 ① （其中x1,x2,...,xm是某样本数据的各个特征，维度为m）之后按照si 阅读全文

posted @ 2012-07-18 14:06 as_ 阅读(79280) 评论(5) 推荐(9)

支持向量机(Support Vector Machine)-----SVM之SMO算法(转)

摘要：此文转自两篇博文有修改序列最小优化算法（英语：Sequential minimal optimization, SMO）是一种用于解决支持向量机训练过程中所产生优化问题的算法。SMO由微软研究院的约翰·普莱特（John Platt）发明于1998年，目前被广泛使用于SVM的训练过程中，并在通行的SVM库libsvm中得到实现。1998年，SMO算法发表在SVM研究领域内引起了轰动，因为先前可用的SVM训练方法必须使用复杂的方法，并需要昂贵的第三方二次规划工具。而SMO算法较好地避免了这一问题。前面最后留下来一个对偶函数最后的优化问题，原式为： -----------------这阅读全文

posted @ 2012-07-17 12:49 as_ 阅读(25148) 评论(1) 推荐(3)

支持向量机(Support Vector Machine)-----SVM（转，有修改）

摘要：SVM（一）线性分类器线性分类器(一定意义上,也可以叫做感知机) 是最简单也很有效的分类器形式.在一个线性分类器中,可以看到SVM形成的思路,并接触很多SVM的核心概念.用一个二维空间里仅有两类样本的分类问题来举个小例子。如图所示：C1和C2是要区分的两个类别，在二维平面中它们的样本如上图所示。中间的直线就是一个分类函数，它可以将两类样本完全分开。一般的，如果一个线性函数能够将样本完全正确的分开，就称这些数据是线性可分的，否则称为非线性可分的。什么叫线性函数呢？在一维空间里就是一个点，在二维空间里就是一条直线，三维空间里就是一个平面，可以如此想象下去，如果不关注空间的维数，这种线性函数还有一个阅读全文

posted @ 2012-07-13 18:41 as_ 阅读(4852) 评论(0) 推荐(1)

华山大师兄