2012 年 8月 12 日随笔档案 - 张朝阳讲go语言

2012年8月12日

用Hadoop1.0.3实现KMeans算法

摘要：从理论上来讲用MapReduce技术实现KMeans算法是很Natural的想法：在Mapper中逐个计算样本点离哪个中心最近，然后Emit(样本点所属的簇编号，样本点)；在Reducer中属于同一个质心的样本点在一个链表中，方便我们计算新的中心，然后Emit(质心编号，质心)。但是技术上的事并没有理论层面那么简单。Mapper和Reducer都要用到K个中心（我习惯称之为质心），Mapper要读这些质心，Reducer要写这些质心。另外Mapper还要读存储样本点的数据文件。我先后尝试以下3种方法，只有第3种是可行的，如果你不想被我误导，请直接跳过前两种。一、用一个共享变量在存储K个质心由于阅读全文

posted @ 2012-08-12 11:42 张朝阳讲go语言阅读(8817) 评论(5) 推荐(0)

张朝阳讲go语言

Technologies come and technologies go, but insight is forever.

公告