2012 年 6月 21 日随笔档案 - dekevin

2012年6月21日

摘要： K-means也是聚类算法中最简单的一种了，但是里面包含的思想却是不一般。最早我使用并实现这个算法是在学习韩爷爷那本数据挖掘的书中，那本书比较注重应用。看了Andrew Ng的这个讲义后才有些明白K-means后面包含的EM思想。聚类属于无监督学习，以往的回归、朴素贝叶斯、SVM等都是有类别标签y的，也就是说样例中已经给出了样例的分类。而聚类的样本中却没有给定y，只有特征x，比如假设宇宙中的星星可以表示成三维空间中的点集。聚类的目的是找到每个样本x潜在的类别y，并将同类别y的样本x放在一起。比如上面的星星，聚类后结果是一个个星团，星团里面的点相互距离比较近，星团间的星星距离就比较远了。在. 阅读全文

posted @ 2012-06-21 15:09 dekevin 阅读(1147) 评论(0) 推荐(0)

k-means聚类分析

摘要： k-means算法是machine learning领域内比较常用的算法之一。首先，我们先来讲下该算法的流程（摘自百度百科）：首先从n个数据对象任意选择 k 个对象作为初始聚类中心；而对于所剩下其它对象，则根据它们与这些聚类中心的相似度（距离），分别将它们分配给与其最相似的（聚类中心所代表的）聚类；然后再计算每个所获新聚类的聚类中心（该聚类中所有对象的均值）；不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数. k个聚类具有以下特点：各聚类本身尽可能的紧凑，而各聚类之间尽可能的分开。以上就是k-means的算法流程了，算法的流程其实还是比较简单的，今天我着重阅读全文

posted @ 2012-06-21 15:08 dekevin 阅读(3694) 评论(0) 推荐(0)

spss clementine Twostep Cluster(两步聚类二阶聚类)

摘要：一、前提条件：1.变量之间不存在多重共线性；2.变量服从正态分布；二、原理：第一步，预聚类、准聚类过程：构建聚类特征树（CFT），分成很多子类。开始时，把某个观测量放在树的根节点处，它记录有该观测量的变量信息，然后根据指定的距离测度作为相似性依据，使每个后续观测量根据它与已有节点的相似性，放到最相似的节点中，如果没有找到某个相似性的节点，就为它形成一个新的节点。第二步，正式聚类：将以第一步完成的预聚类作为输入，对之使用分层聚类的方法进行再聚类（对数似然函数）。每一个阶段，利用施瓦兹贝叶斯信息准则（BIC）评价现有分类是否适合现有数据，并在最后给出符合准则的分类方案。三、优点：1.海量数据处理阅读全文

posted @ 2012-06-21 15:02 dekevin 阅读(8042) 评论(0) 推荐(1)

Clementine决策树算法C&RT、CHAID、QUEST、C5.0的区别

摘要：决策树(decision tree)一般都是自上而下的来生成的。每个决策或事件（即自然状态）都可能引出两个或多个事件，导致不同的结果，把这种决策分支画成图形很像一棵树的枝干，故称决策树。优点： 1)　可以生成可以理解的规则； 2)　计算量相对来说不是很大； 3) 可以处理连续和种类字段； 4) 决策树可以清晰的显示哪些字段比较重要。缺点： 1) 对连续性的字段比较难预测； 2) 对有时间顺序的数据，需要很多预处理的工作； 3) 当类别太多时，错误可能就会增加的比较快； 4) 一般的算法分类的时候，只是根据一个字段来分类。(racoon)一、C 5.0算法执行效率和内存使用改进、... 阅读全文

posted @ 2012-06-21 15:02 dekevin 阅读(7904) 评论(0) 推荐(0)

TwoStep Cluster

摘要： TwoStep Cluster属于近年来才发展起来的智能聚类方法的一种，用于解决海量数据，复杂类别结构时的聚类分析问题。与传统的层次聚类和快速聚类法相比，两步聚类法有鲜明的特点。首先，用于聚类的变量可以使连续变量，也可以是离散变量，不必像其他算法那样，在进行聚类之前对离散变量进行连续化处理；其次，两步聚类法占用的内存资源少，对于大数据量，运算速度较快。最后，它是真正的在利用统计量作为距离指标进行聚类，同时又可以根据一定的统计标准自动地建议甚至于确定最佳的类别数。顾名思义，两步聚类是通过两个步骤来完成聚类工作。一、预聚类这一步骤通过构建和修改聚类特征树（Cluster Feature Tree）阅读全文

posted @ 2012-06-21 14:58 dekevin 阅读(1685) 评论(0) 推荐(0)

公告