2.安装Spark与Python练习

一、安装Spark

    1.检查基础环境hadoop,jdk 

 图一  Hadoop版本信息

图二  Hadoop主节点master节点jps

 

图三  Hadoop节点slave1 jps

图四  Java版本

    2.下载spark

    3.解压,文件夹重命名、权限

    4.配置文件

    5.环境变量

 

    6.试运行Python代码

 图五  运行pyspark命令

 

二、Python编程练习:英文文本的词频统计

  1. 准备文本文件
  2. 读文件
  3. 预处理:大小写,标点符号,停用词
  4. 分词
  5. 统计每个单词出现的次数
  6. 按词频大小排序
  7. 结果写文
path='D:\\english.txt'
with open(path) as f:
text=f.read()
words = text.split(" ")
wc={}
for word in words:
wc[word]=wc.get(word,0)+1
wclist=list(wc.items())
wclist.sort(key=lambda x:x[1],reverse=True)
print(wclist)
f = open('D:\\work.txt',"w")
f.write(str(wclist))
f.close()

 图六  文件单词拆分输出

 

 

 

图七  结果写入文件

三、根据自己的编程习惯搭建编程环境(选做)

  1. 使用Jupyter Notebook调试PySpark程序:参考http://dblab.xmu.edu.cn/blog/2575-2/
  2. 使用PyCharm参考:Ubuntu 16.04 + PyCharm + spark 运行环境配置https://blog.csdn.net/zhurui_idea/article/details/72982598

 

三、根据自己的编程习惯搭建编程环境(选做)

  1. 使用Jupyter Notebook调试PySpark程序:参考http://dblab.xmu.edu.cn/blog/2575-2/
  2. 使用PyCharm参考:Ubuntu 16.04 + PyCharm + spark 运行环境配置https://blog.csdn.net/zhurui_idea/article/details/72982598

 

图八  下载pycharmLinux安装包

 

 

 

图九  下载py4j

 

 

图十  安装pycharm

图十一  pycharm运行界面

 

图十二  配置pycharmSpark环境

 

posted on 2022-03-05 13:08  TanHaven  阅读(36)  评论(0)    收藏  举报