数据挖掘：聚类

聚类分析的基于内存的数据结构：

1二模矩阵：用P个变量来表示N个对象。（行表示属性，列表示每个对象对每个属性的特征）行和列都表示不同的实体

2异度矩阵：行和列表示相同的实体；（单模矩阵）存储n个对象两两之间的近似。

区间标度变量：重量、高度。一个粗略线性标度的连续度量。

度量单位将直接影响聚类分析的结构，需将单位标准化，将原来的之转化为无单位的值。（Z-SCORE）

EUCLIDEAN（欧几里得）距离；minkowski距离

manhattan距离

对称的二元变量：用简单匹配系数评估相异度d(i,j)=(b+c)/(a+b+c+d)

非。。。。。。：Jaccard系数(不关心都为0（d）的情况)。。。。。。：d(i,j)=(b+c)/(a+b+c)

标称变量：简单匹配：d（i,j）=(p-m)/p;将m个标称状态的每个状态创建一个新的二元变量，并用非对称的二元变量来编码标称变量。

序列型变量：将序列数一一对应到连续的数字数组上，将值映射到【0,1】（24.2.30）

posted @ 2015-04-28 22:49 nskl 阅读(318) 评论(0) 编辑收藏举报

刷新页面返回顶部