随笔分类 - 机器学习
这里是记录在学习数据挖掘上的基础和收获
【聚类】- 聚类实现的数据结构抽象
摘要:所有聚类方法都是可以抽象的聚类接口为以下:提供如下常量:提供一个默认的聚类点集在HDFS上的地址字符串:CLUSTERED_POINTS_DIR提供一个默认的聚类后形成的CLUSTER目录地址: INITIAL_CLUSTERS_DIR提供一个默认的聚类点集终极OUTPUT目录: CLUSTERS_DIR提供如下方法:int getId(); //得到某个CLUSTER的编好 Vector getCenter(); //得到中心点的N维向量 Vector getRadius(); //...
阅读全文
【聚类】- 聚类之K-means基础
摘要:一、相异度计算基于空间的距离1、欧几里得距离:2、曼哈顿距离:3、闵科夫斯基距离:(可见:欧氏距离和曼哈顿距离都是闵科夫斯基距离在P=1,2下的特例)标量规格化由于标量大小不一致导致对空间映射会同质化,所以需要对属性在[0,1]空间上映射,以来规格化。映射公式为: (ai 是一个属性)二、二元变量二元变量就是只能取0、1 的变量。二元相异度计算公式: 取值不同的同位属性个数 / 所有属性个数例如:X={1,0,0,0,1,0,1,1},Y={0,0,0,1,1,1,1,1}。 二元相异度为 3/8非对称二元相异度计算公式:取值不同的同位属性个数/所有属性个数 - 值为0的同位属性个数非对称二.
阅读全文
【分类器】- KNN
摘要:一、分类算法中的学习概念因为分类算法都是有监督学习,故分为以下2种学习。1、急切学习:在给定的训练元组之后、接受到测试元组之前就构造好分类模型。算法有:贝叶斯、基于规则的分类(决策树)、向后传播分类、SVM(支持向量机)、基于关联规则挖掘的分类。2、懒惰学习:直到给定一个测试元组才开始构造分类模型。也称为基于实例的学习法。算法有:KNN。二、KNN的特点优点:实现方便、支持增量学习、能对超多边形的复杂决策空间建模缺点:计算量开销大、大规模存储支持。三、KNN算法原理非常简单、就是在测试元组中找和训练元组向量空间上最接近的K个点中,类别最多的那个分类。向量空间距离无非那么几种:欧式、闵科夫斯基、
阅读全文
【决策树】— C4.5算法建立决策树JAVA练习
摘要:以下程序是我练习写的,不一定正确也没做存储优化。有问题请留言交流。转载请挂连接。当前的属性为:age income student credit_rating当前的数据集为(最后一列是TARGET_VALUE):---------------------------------youth high no fair no youth high no excellent no middle_aged high no fair yes senior low yes fair yes senior low ...
阅读全文
【聚类】— Canopy算法
摘要:Canopy一般用在K均值之前的粗聚类。考虑到K均值在使用上必须要确定K的大小,而往往数据集预先不能确定K的值大小的,这样如果K取的不合理会带来K均值的误差很大(也就是说K均值对噪声的抗干扰能力较差)。总之基于以下三种原因,选择利用Canopy聚类做为Kmeans的前奏比较科学、也是Canopy的优点。Canopy的优点:1、Kmeans对噪声抗干扰较弱,通过Canopy对比较小的NumPoint的Cluster直接去掉 有利于抗干扰。2、Canopy选择出来的每个Canopy的centerPoint作为Kmeans比较科学。 3、只是针对每个Canopy的内容做Kmeans聚类,减少相似计算
阅读全文
浙公网安备 33010602011771号