2 安装Spark与Python练习

一、安装Spark

检查基础环境hadoop,jdk
下载spark
解压，文件夹重命名、权限
配置文件
环境变量
试运行Python代码

二、Python编程练习：英文文本的词频统计

准备文本文件
读文件
预处理：大小写，标点符号，停用词
分词
统计每个单词出现的次数
按词频大小排序
结果写文件

点击查看英文文本的词频统计代码

# 准备文本文件
path = 'C:/Users/Desktop/words.txt'
# 读文件
with open(path) as f:
    text = f.read()
# 预处理：大小写，标点符号，分词  停用词
my_list = []
new_word = ''
no_use = [',', '.', '\n', '!', ' ']  # 符号列表未列完.....
stop_word = []  # 自定义停用词
for ch in text.lower():
    if ch in no_use:
        if len(new_word) == 0 or new_word in stop_word:
            continue
        my_list.append(new_word)
        new_word = ''
        continue
    new_word += ch
# 统计每个单词出现的次数
wc = {}
for word in my_list:
    wc[word] = wc.get(word, 0) + 1
wc_list = list(wc.items())
# 按词频大小排序
wc_list.sort(key=lambda x: x[1], reverse=True)
# 简单打印一下
print(wc_list)

posted @ 2022-03-02 19:34 叶文茂阅读(38) 评论(0) 收藏举报

刷新页面返回顶部

2 安装Spark与Python练习

公告