数据挖掘:聚类

聚类分析的基于内存的数据结构:

1二模矩阵:用P个变量来表示N个对象。(行表示属性,列表示每个对象对每个属性的特征)行和列都表示不同的实体

2异度矩阵:行和列表示相同的实体;(单模矩阵)存储n个对象两两之间的近似。

区间标度变量:重量、高度。一个粗略线性标度的连续度量。

度量单位将直接影响聚类分析的结构,需将单位标准化,将原来的之转化为无单位的值。(Z-SCORE)

EUCLIDEAN(欧几里得)距离;minkowski距离

manhattan距离

对称的二元变量:用简单匹配系数评估相异度d(i,j)=(b+c)/(a+b+c+d)

非。。。。。。:Jaccard系数(不关心都为0(d)的情况)。。。。。。:d(i,j)=(b+c)/(a+b+c)

标称变量:简单匹配:d(i,j)=(p-m)/p;将m个标称状态的每个状态创建一个新的二元变量,并用非对称的二元变量来编码标称变量。

序列型变量:将序列数一一对应到连续的数字数组上,将值映射到【0,1】(24.2.30)

 

posted @ 2015-04-28 22:49  nskl  阅读(318)  评论(0编辑  收藏  举报