第二次作业

一、安装Spark

hadoop，jdk基础坏境的检查

spark的使用

二、Python编程练习：英文文本的词频统计

import string
list=[] 
dict={}
txt=open('text.txt','r').read().lower() #读取文件
for ch in string.punctuation:    #替换标点符号
    txt=txt.replace(ch,"")
list=txt.split() #分割文章
for i in list:    #统计词频
    if i in dict:
        dict[i]+=1
    else:
        dict[i]=1
dict= sorted(dict.items(),key=lambda d:d[1],reverse= True) #词频排序
f = open('result.txt','w')    #格式化将结果写入文件
for items in dict:
    f.writelines('{}--{}'.format(items[0],items[1]) + '\n')

运行结果：

posted @ 2022-03-05 15:22 啊bin 阅读(43) 评论(0) 收藏举报

刷新页面返回顶部

啊bin

第二次作业

公告