08

1.用你最熟悉的编程环境,编写非分布式的词频统计程序。

  • 读文件
  • 分词(text.split列表)
  • 按单词统计(字典,key单词,value次数)
  • 排序(list.sort列表)
  • 输出
  • 在Ubuntu中实现运行。

    • 准备txt文件
    • 编写py文件
    • python3运行py文件分析txt文件。

     

     

     

  •  

     

    2.1编写Map函数

    • 编写mapper.py
    • 授予可运行权限
    • 本地测试mapper.py
    •  

       

      2.2编写Reduce函数

      • 编写reducer.py
      • 授予可运行权限
      • 本地测试reducer.py

       

       

       

      2.3分布式运行自带词频统计示例

      • 启动HDFS与YARN
      • 准备待处理文件,上传到HDFS上
      • 运行hadoop-mapreduce-examples-2.7.1.jar
      • 查看结果
      •  

         

         

         

        2.4 分布式运行自写的词频统计

        • 用Streaming提交MapReduce任务:
          • 查看hadoop-streaming的jar文件位置:/usr/local/hadoop/share/hadoop/tools/lib/
          • 配置stream环境变量
          • 编写运行文件run.sh
          • 运行run.sh运行
          •  

             

             

             

posted @ 2021-11-27 19:35  曾泽华  阅读(678)  评论(0编辑  收藏  举报