2.安装Spark与Python练习

一、安装Spark

  1. 检查基础环境hadoop,jdk
  2. 下载spark
  3. 解压,文件夹重命名、权限
  4. 配置文件
  5. 环境变量
  6. 试运行Python代码

     

二、Python编程练习:英文文本的词频统计

  1. 准备文本文件
  2. 读文件
  3. 预处理:大小写,标点符号,停用词
  4. 分词
  5. 统计每个单词出现的次数
  6. 按词频大小排序
  7. 结果写文件
  8.  

    path='/home/myti/programme/test_word.txt' #specified file
    with open(path) as wc:
    	text=wc.read()#read file
    words=text.split()
    wordcount={}#dictionary
    
    for word in words:
    	wordcount[word]=wordcount.get(word,0)+1#number++
    wordcountlist=list(wordcount.items())
    wordcountlist.sort(key=lambda x:x[1],reverse=True)#sort by
    print(wordcountlist)
    print('Finish!')
    

      三、根据自己的编程习惯搭建编程环境(选做)

    1. 使用Jupyter Notebook调试PySpark程序:参考http://dblab.xmu.edu.cn/blog/2575-2/
    2. 使用PyCharm参考:Ubuntu 16.04 + PyCharm + spark 运行环境配置https://blog.csdn.net/zhurui_idea/article/details/72982598

     

     

三、根据自己的编程习惯搭建编程环境(选做)

  1. 使用Jupyter Notebook调试PySpark程序:参考http://dblab.xmu.edu.cn/blog/2575-2/
  2. 使用PyCharm参考:Ubuntu 16.04 + PyCharm + spark 运行环境配置https://blog.csdn.net/zhurui_idea/article/details/72982598

 

posted @ 2022-03-02 09:43  Kiranar  阅读(40)  评论(0编辑  收藏  举报