2.安装Spark与Python练习

一、安装Spark

　　　　1.检查基础环境hadoop,jdk

图一　　Hadoop版本信息

图二　　Hadoop主节点master节点jps

图三　　Hadoop节点slave1 jps

图四　　Java版本

　　　　2.下载spark

　　　　3.解压，文件夹重命名、权限

　　　　4.配置文件

　　　　5.环境变量

　　　　6.试运行Python代码

图五　　运行pyspark命令

二、Python编程练习：英文文本的词频统计

准备文本文件
读文件
预处理：大小写，标点符号，停用词
分词
统计每个单词出现的次数
按词频大小排序
结果写文

path='D:\\english.txt'
with open(path) as f:
    text=f.read()
words = text.split(" ")
wc={}
for word in words:
    wc[word]=wc.get(word,0)+1
wclist=list(wc.items())
wclist.sort(key=lambda x:x[1],reverse=True)
print(wclist)
f = open('D:\\work.txt',"w")
f.write(str(wclist))
f.close()