2.安装Spark与Python练习

一、安装Spark

1.配置文件(配置Spark的classpath)

2.配置环境变量

3.运行Python代码

二、词频统计

运行结果:

源码:

 1 import string #导入字符串模块
 2 
 3 hist = {} #创建一个空字典,放词频与单词,无序排列
 4 data = [] #创建一个空列表,放词频与单词,有序:从多到少
 5 f = open('A Modern Slavery by Henry W. Nevinson.txt','r',encoding='UTF-8')
 6 content = f.read()
 7 f.close()
 8 content = content.replace('-',' ') #连字符—用空格代替
 9 words = content.split() #字符串按空格分割--分词
10 #迭代处理:将字典变列表,存入数据
11 for i in range(len(words)):
12     words[i] = words[i].strip(string.punctuation) #去掉标点符号,去掉首尾
13     words[i] = words[i].lower() #统一大小写
14     if words[i] in hist: #统计词频与单词
15         hist[words[i]] = hist[words[i]] + 1
16     else:
17         hist[words[i]] = 1
18 
19 #遍历字典
20 for key, value in hist.items(): #遍历字典
21     temp = [value,key] #变量,变量值
22     data.append(temp) #添加数据
23 
24 data.sort(reverse=True) #排序
25 print(data);

 

posted @ 2022-03-06 13:01  lokxlok  阅读(31)  评论(0编辑  收藏  举报