mahout聚类1

聚类:

  是否可以将事物归为一个簇,完全取决于我们在考量它们之间相似性时所选择的特征参数。

  聚类,就是将一个给定文档中的相似项目分成不同簇的过程,我们可以将这些簇看做一组簇内相似而簇间有别的项目的集合。

  1、一个算法,将书组织在一起的方法

  2、相似性和不相似性的概念

  3、停止的条件

  簇的中心点为簇的中心,或平均值(mean,average).

  关键:寻找一个可以量化任意两个数据点之间的相似性函数,物品和点是可以相互替换的。一般是基于物品的多个特征。

  helloworld聚类代码:

 

posted @ 2014-08-04 15:54  jseven  阅读(135)  评论(0编辑  收藏  举报