2.安装Spark与Python练习
一、安装Spark
1.配置文件(配置Spark的classpath)
2.配置环境变量
3.运行Python代码
二、词频统计
运行结果:
源码:
1 import string #导入字符串模块 2 3 hist = {} #创建一个空字典,放词频与单词,无序排列 4 data = [] #创建一个空列表,放词频与单词,有序:从多到少 5 f = open('A Modern Slavery by Henry W. Nevinson.txt','r',encoding='UTF-8') 6 content = f.read() 7 f.close() 8 content = content.replace('-',' ') #连字符—用空格代替 9 words = content.split() #字符串按空格分割--分词 10 #迭代处理:将字典变列表,存入数据 11 for i in range(len(words)): 12 words[i] = words[i].strip(string.punctuation) #去掉标点符号,去掉首尾 13 words[i] = words[i].lower() #统一大小写 14 if words[i] in hist: #统计词频与单词 15 hist[words[i]] = hist[words[i]] + 1 16 else: 17 hist[words[i]] = 1 18 19 #遍历字典 20 for key, value in hist.items(): #遍历字典 21 temp = [value,key] #变量,变量值 22 data.append(temp) #添加数据 23 24 data.sort(reverse=True) #排序 25 print(data);