理解MapReduce计算构架

用Python编写WordCount程序任务

程序

WordCount

输入

一个包含大量单词的文本文件

输出

文件中每个单词及其出现次数(频数),并按照单词字母顺序排序,每个单词和其频数占一行,单词和频数之间有间隔

1.编写map函数,reduce函数

  第一步 —— 创建文件

  

  第二步 —— 编写两个函数

  

  

  2.将其权限作出相应修改

  

 

  3.本机上测试运行代码

  

  

 

  4.放到HDFS上运行

 

  5.下载并上传文件到hdfs上

  

  

  

 

  6.用Hadoop Streaming命令提交任务

    第一步 —— 先找到Streaming的Jar包

    

    第二步 —— 配置默认环境变量

    

    第三步 —— 让配置生效并测试

    

    第四步 —— 编写run.sh脚本程序

    

    

    第五步 —— 运行run.sh

    

 

    第六步 —— 查看运行结果

    

    

posted on 2018-05-10 19:04  何晓锋  阅读(134)  评论(0)    收藏  举报