mahout聚类1
聚类:
是否可以将事物归为一个簇,完全取决于我们在考量它们之间相似性时所选择的特征参数。
聚类,就是将一个给定文档中的相似项目分成不同簇的过程,我们可以将这些簇看做一组簇内相似而簇间有别的项目的集合。
1、一个算法,将书组织在一起的方法
2、相似性和不相似性的概念
3、停止的条件
簇的中心点为簇的中心,或平均值(mean,average).
关键:寻找一个可以量化任意两个数据点之间的相似性函数,物品和点是可以相互替换的。一般是基于物品的多个特征。
helloworld聚类代码: