第二次作业

一、安装Spark

hadoop,jdk基础坏境的检查

 

spark的使用

 

 

 二、Python编程练习:英文文本的词频统计

import string
list=[] 
dict={}
txt=open('text.txt','r').read().lower() #读取文件
for ch in string.punctuation:    #替换标点符号
    txt=txt.replace(ch,"")
list=txt.split() #分割文章
for i in list:    #统计词频
    if i in dict:
        dict[i]+=1
    else:
        dict[i]=1
dict= sorted(dict.items(),key=lambda d:d[1],reverse= True) #词频排序
f = open('result.txt','w')    #格式化将结果写入文件
for items in dict:
    f.writelines('{}--{}'.format(items[0],items[1]) + '\n')

运行结果:

 

posted @ 2022-03-05 15:22  啊bin  阅读(43)  评论(0)    收藏  举报