安装Spark与Python代码练习

1.基础环境--环境准备检查

2.运行pyspark

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3.python代码测试

 

 

 4.python实现英文文本的词频统计

①通过终端命令创建文件,一个放英文内容以是python代码文件

 

 

 python代码如下:说明((1)英文中同时存在大小写,会干扰词频统计的结果,所以应将所有的英文字母转化为大写或小写;(2)英文单词可能被空格、标点或其他特殊符号分隔,因此应将这些特殊符号统一替换为空格;(3)根据空格对文本进行分隔;(4)用词典统计单词的出现次数;(5)由于词典不具有排序功能,可以将词典转化列表,再对统计结果进行排序。)

import string

#文本词频统计
f=open("es.txt","r")
txt=f.read()
#将所有字母转化为小写,排除大小写差异对词频统计的干扰
txt.lower()
#为统一单词的切分方式,将各种特殊字符和标点符号都替换为空格
for ch in string.punctuation:
    txt=txt.replace(ch," ")
#根据空格对文本进行切分
words=txt.split()
#创建一个空词典,用于存放统计结果
result={}
for word in words:
    result[word]=result.get(word,0)+1
#为便于排序,将词典转化为列表
items=list(result.items())
#根据单词的频数从高到低排序
items.sort(key=lambda x:x[1],reverse=True)
#输出全部
print(items)
#输出排序结果中位于前10位的单词
for i in range(10):
    print(items[i])

5.运行es.py

命令:python3 es.py

①显示所有单词词频排序从大到小

 

 

 ②显示排序的前十名

 

posted @ 2022-03-02 23:43  偷猪少年会遇到  阅读(43)  评论(0编辑  收藏  举报