博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

2014年5月14日

摘要: 一、背景Hadoop中实现了用于全局排序的InputSampler类和TotalOrderPartitioner类,调用示例是org.apache.hadoop.examples.Sort。但是当我们以Text文件作为输入时,结果并非按Text中的string列排序,而且输出结果是SequenceF... 阅读全文

posted @ 2014-05-14 14:12 Y.Cloud 阅读(5263) 评论(0) 推荐(0) 编辑

摘要: 一、版本对比公司版Mahout由于Mahout只能允许于hadoop0.20以上版本上,而百度的hadoop是hadoop0.19的一个分支。因此百度HPC组曾经将Mahout移植到百度的hadoop集群。Mahout上古版本,只有itembased一种算法,且只能用于百度版hadoop。开源Mah... 阅读全文

posted @ 2014-05-14 13:04 Y.Cloud 阅读(2321) 评论(0) 推荐(0) 编辑