第八次作业

1.用你最熟悉的编程环境,编写非分布式的词频统计程序。

  • 读文件
  • 分词(text.split列表)
  • 按单词统计(字典,key单词,value次数)
  • 排序(list.sort列表)
  • 输出

用python实现词频的统计,代码如下:

 

test.txt文件内容如下:

 

 

 

运行结果如下:

 

 

在Ubuntu中实现运行。

  • 准备txt文件
  •  

     

  • 编写py文件
  •  

     

  • python3运行py文件分析txt文件。
  •  

     

    2.用MapReduce实现词频统计

    2.1编写Map函数

    • 编写mapper.py
    •  

       

    • 授予可运行权限,修改权限之前运行会提示无法运行
    •  

       授权

       

       

    • 本地测试mapper.py
    •  

       

    2.2编写Reduce函数

    • 编写reducer.py
    •  

       

    • 授予可运行权限
    • 本地测试reducer.py,在排序之前运行结果没有统计,排序后结果为统计后的。
    •  

       

    •  

       

       

       

       

posted @ 2021-11-23 15:27  梦北11  阅读(27)  评论(0)    收藏  举报