1. 文章梗概

       提出了基于证据积累的聚类组合方法(EAC)。基于共有信息的概念,开发了一套理论框架以分析和评价所提出的算法。采用bootstrapping技术来评价算法的稳定性。提出了一种基于K均值算法并使用分合策略的基于证据积累聚类算法。

2. 主要方法

2.1   证据积累聚类算法
 

2.2 共有信息

1 使用共有信息mutual information 来定义数据分区之间的相似性,进而衡量合并后的聚类(combined partition P*)与原始的聚类集(clustering ensemble)之间的一致性。

2 通过bootstrapsing技术评估EAC算法的鲁棒性。

 

2.3   基于K均值算法的数据分区组合

利用K均值算法,通过改变参数K以初始化聚类集,然后根据EAC算法(EAC与单连接SL或平均连接AL算法结合)进行聚类合并。

3. 疑问和改进空间

1)  文中4.2节, 如何推导,并确保 是一个整数?

根据不同原始数据的分布特性,可采用模糊K均值算法或面向分类属性算法等进行聚类集的初始化。
/Files/diegoeddy/EAc.pdf

posted on 2007-07-31 15:29  冯帅  阅读(438)  评论(0)    收藏  举报