所以燃

Information Retrieval --- Clustering

一、聚类算法

1.扁平聚类(k均值)

步骤:

a.重分配(reassignment): 将每篇文档分配给离它最近的簇
b.重计算(recomputation): 重新计算每个簇的质心向量

image

2.层次聚类

2.1单连接single-link:最大相似度(往往产生长的、凌乱的簇结构)

image

image

2.2全连接all-link:最小相似度

image

image

3.质心法:  平均的类间相似度(对离群点非常敏感)
image

4.组平均Group-average: 平均的类内和类间相似度

 

二、聚类评价

1.内部指标:RSS残差平方和(不能评价实际效用)

RSS = 所有簇上的文档向量到(最近的)质心向量的距离平方和的总和

2.外部指标

2.1纯度

image

2.2兰迪指数

image

image

posted on 2013-12-16 23:49  Jizhiyuan  阅读(302)  评论(0编辑  收藏  举报

导航