2014 年 3月 16 日随笔档案 - 左晓

2014年3月16日

摘要：在数据分析和数据挖掘的过程中，我们经常需要知道个体间差异的大小，进而评价个体的相似性和类别。最常见的是数据分析中的相关分析，数据挖掘中的分类和聚类算法，如K最近邻（KNN）和K均值（K-Means）。当然衡量个体差异的方法有很多，最近查阅了相关的资料，这里整理罗列下。为了方便下面的解释和举例，先设定我们要比较X个体和Y个体间的差异，它们都包含了N个维的特征，即X=（x1， x2， x3， … xn），Y=（y1， y2， y3， … yn）。下面来看看主要可以用哪些方法来衡量两者的差异，主要分为距离度量和相似度度量。距离度量距离度量（Distance）用于衡量个体在空间上存在的距离，距离越远说阅读全文

posted @ 2014-03-16 22:33 左晓阅读(351) 评论(0) 推荐(0)

皮尔逊相关度评价

摘要： 1、用在数据不是很规范的时候2、最佳拟合线3、夸大分值4、皮尔逊积差系数数学特征其中，E是数学期望，cov表示协方差，和是标准差。因为，，同样地，对于，可以写成当两个变量的标准差都不为零，相关系数才有定义。从柯西-施瓦茨不等式可知，相关系数的绝对值不超过1。当两个变量的线性关系增强时，相关系数趋于1或-1。当一个变量增加而另一变量也增加时，相关系数大于0。当一个变量的增加而另一变量减少时，相关系数小于0。当两个变量独立时，相关系数为0.但反之并不成立。这是因为相关系数仅仅反映了两个变量之间是否线性相关。比如说，X是区间［－１，１］上的一个均匀分布的随机变量。Y=X2. 那么Y是完全由X确定。阅读全文

posted @ 2014-03-16 22:12 左晓阅读(1298) 评论(0) 推荐(0)

左晓

公告