聚类---度量
聚类度量包括性能度量和距离计算,
性能度量
对数据集D={x1,x2,...,xm},假定通过聚类给出的策划为C={C1,C2,...,Ck},参考模型给出的簇划分为C‘={C'1,C'2,...C'k},相应的λ和λ‘分别表示C和C’对应的簇标记向量,将样本两两配对考虑,
     
由于每一个样本中仅能出现在一个集合中,因此有a+b+c+d=m(m-1)/2
Jaccard 系数(简称JC)
     
FM 系数(简称FMI)
      
Rand 指数(简称RI)
      
上述性能度量的结果均在[0,1]区间,值越大越好。
聚类结果的簇划分C={C1,C2,...Ck},定义
簇C内样本发平均距离:
 
       
样本间的最远距离:

样本Ci,Cj最近样本间的距离:

簇Ci与Cj中心点间的距离:

DB指数(DBI)
     
Dunn指数(DI)
     
DBI的值越小越好DI的值正好相反,值越大越好
距离计算
非负性:
     
同一性:
     
对称性:
     
直递性:
    
 
                    
                 
                
            
         浙公网安备 33010602011771号
浙公网安备 33010602011771号