摘要:导读:Hadoop实际是一种以数据为驱动的计算模型,结合MapReduce和HDFS,将任务运行在数据存放的计算节点上,充分利用了计算节点的存储和计算资源,同时也大大节省了网络传输数据的开销。Hadoop(某人儿子的一只虚拟大象的名字)是一个复杂到极致,又简单到极致的东西。说它复杂,是因为一个hadoop集群往往有几十台甚至成百上千台low cost的计算机组成,你运行的每一个任务都要在这些计算机上做任务的分发,执行中间数据排序以及最后的汇总,期间还包含节点发现,任务的重试,故障节点替换等等等等的维护以及异常情况处理。谁叫hadoop集群往往都是由一些平民计算机组成,没事儿罢个工什么的,实在是
阅读全文
摘要:经常遇到的exception是:PipeMapRed.waitOutputThreads(): subprocess failed with code N"OS error code 1: Operation not permitted""OS error code 2: No such file or directory""OS error code 3: No such process""OS error code 4: Interrupted system call""OS error code 5
阅读全文
摘要:前两篇文章介绍了Hadoop Streaming框架的使用方法。由于篇幅所限,并没有介绍其中的高级使用方法,但是有一些用法还是相当常见的。今天对一些高级用法进行一个简单的说明,希望能给大家一些启发。 1 使用cacheFile分发文件 如果文件(如字典文件)存放在HDFS中,希望计算时在每个计算节点上将文件当作本地文件处理,,可以使用-cacheFile hdfs://host:port/path/to/file#linkname选项在计算节点缓存文件,Streaming程序通过./linkname访问文件。 例如: hadoop = `which hadoop` $hadoop...
阅读全文
摘要:上一篇文章介绍了Streaming的各种参数,本文具体介绍使用方法。提交hadoop任务示例:$HADOOP_HOME/bin/hadoop streaming \-input /user/test/input -output /user/test/output \-mapper “mymapper.sh” -reducer “myreducer.sh” \-file/home/work/mymapper.sh \-file /home/work/myreducer.sh \-jobconf mapred.job.name=”file-demo”上面的命令提交了一个hadoop任务,输出和输入
阅读全文
摘要:Streaming简介Streaming框架允许任何程序语言实现的程序在Hadoop MapReduce中使用,方便已有程序向Hadoop平台移植。因此可以说对于hadoop的扩展性意义重大,今天简单说一下。Streaming的原理是用Java实现一个包装用户程序的MapReduce程序,该程序负责调用MapReduce Java接口获取key/value对输入,创建一个新的进程启动包装的用户程序,将数据通过管道传递给包装的用户程序处理,然后调用MapReduce Java接口将用户程序的输出切分成key/value对输出。Streaming优点1 开发效率高,便于移植只要按照标准输入输出格式
阅读全文
摘要:伯乐人才网6月9日发表了《写给即将入行的程序员的一封信》,翻译自《An open letter to those who want to start programming》,我的朋友(他在本站的id是Mailper)告诉我,他希望在酷壳上看到一篇更具操作性的文章。因为他也是喜欢编程和技术的家伙,于是,我让他把他的一些学习Python和Web编程的一些点滴总结一下。于是他给我发来了一些他的心得和经历,我在把他的心得做了不多的增改,并根据我的经历增加了“进阶”一节。这是一篇由新手和我这个老家伙根据我们的经历完成的文章。 我的这个朋友把这篇文章取名叫Build Your ProgrammingT.
阅读全文