1. 文章梗概
提出了基于证据积累的聚类组合方法(EAC)。基于共有信息的概念,开发了一套理论框架以分析和评价所提出的算法。采用bootstrapping技术来评价算法的稳定性。提出了一种基于K均值算法并使用分合策略的基于证据积累聚类算法。
2. 主要方法
2.1 证据积累聚类算法
2.2 共有信息
1) 使用共有信息mutual information 来定义数据分区之间的相似性,进而衡量合并后的聚类(combined partition P*)与原始的聚类集(clustering ensemble)之间的一致性。
2) 通过bootstrapsing技术评估EAC算法的鲁棒性。
2.3 基于K均值算法的数据分区组合
利用K均值算法,通过改变参数K以初始化聚类集,然后根据EAC算法(EAC与单连接SL或平均连接AL算法结合)进行聚类合并。
3. 疑问和改进空间
1) 文中4.2节,
根据不同原始数据的分布特性,可采用模糊K均值算法或面向分类属性算法等进行聚类集的初始化。
/Files/diegoeddy/EAc.pdf
浙公网安备 33010602011771号