随笔分类 -  数据挖掘

摘要:转自http://webdataanalysis.net/reference-and-source/distance-and-similarity/在数据分析和数据挖掘的过程中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。最常见的是数据分析中的相关分析,数据挖掘中的分类和聚类算法,如K最近邻(KNN)和K均值(K-Means)。当然衡量个体差异的方法有很多,最近查阅了相关的资料,这里整理罗列下。为了方便下面的解释和举例,先设定我们要比较X个体和Y个体间的差异,它们都包含了N个维的特征,即X=(x1, x2, x3, … xn),Y=(y1, y2, y3, … yn)。下面来 阅读全文
posted @ 2013-04-24 21:25 sillypudding 阅读(194) 评论(0) 推荐(0)
摘要:此为读《数据挖掘概念与技术》一书的随手摘抄,方便以后查阅。数据清理 3.2.1 遗漏值1. 忽略元组:当类标号缺少时通常这样做(假定挖掘任务涉及分类或描述)。除非元组有多个属性缺少值,否则该方法不是很有效。当每个属性缺少值的百分比很高时,它的性能非常差。 2. 人工填写遗漏值:一般地说,该方法很费时,并且当数据集很大,缺少很多值时,该方法可能行不通。 3. 使用一个全局常量填充遗漏值:将遗漏的属性值用同一个常数(如“Unknown”或 –∞)替换。如果遗漏值都用“Unknown”替换,挖掘程序可能误以为它们形成了一个有趣的概念,因为它们都具有相同的值——“Unknown”。因此,尽管该方... 阅读全文
posted @ 2013-04-11 15:05 sillypudding 阅读(985) 评论(0) 推荐(0)