随笔分类 -  hadoop

Hadoop学习01:基础程序模板
摘要:看hadoop in action这本书,写的不错,就是没有兼容新的API,有点遗憾。第一个例子讲倒排索引问题,本质上是求一个图的入度问题,将一个有向图邻接矩阵转置对每行求和。简单的协同推荐也是这样的思想。基本的MapReduce编程遵循一个模板。逻辑由聚合函数来描述:分配型、代数型、全集型。复杂MapReduce作业的链接:A->B->C(顺序型)、(A, B)->C(依赖型)。1. MapReduce基础程序 首先以倒排索引为例子,形成MapReduce的基本思维。采用专利引用数据集cite75_99.txt,数据格式如下: "CITING",&quo 阅读全文

posted @ 2013-05-15 22:23 zjgtan 阅读(490) 评论(0) 推荐(0)

Hadoop学习00:系统配置
摘要:环境: ubuntu 13.04,hadoop 0.20.2,jdk1.7结点分配情况: master(NameNode), backup(Secondary NameNode), slave(DataNode)。配置/etc/hosts表(hostname)1. 安装java环境和hadoop 将压缩包解压到某位置,配置/etc/profile文件。2. 全分布配置过程:(参考Hadoop in Action) 1. 定义公共帐号hadoop-user 2. ssh安装,生成并分配ssh密钥对。分配公钥的相关文件为[hadoop-user@master]~/.ssh/know_ho... 阅读全文

posted @ 2013-05-07 16:44 zjgtan 阅读(258) 评论(0) 推荐(0)

导航