作业二:1.安装Spark 2.Python编程练习 3.根据自己的编程习惯搭建编程环境

1.安装Spark

  1. 检查基础环境hadoop,jdk
图1 hadoop,jdk环境

  1. 配置文件
vim /usr/local/spark/conf/spark-env.sh
图2 spark配置文件

  1. 环境变量
# 修改环境变量
vim ~/.bashrc
# 加载修改后的设置,使之生效
source ~/.bashrc
图3 修改环境变量

图4 启动spark

  1. 运行Python代码
图5 运行python代码

2.Python编程练习

  1. 准备文本文件
图1 data.txt

图2 txt内容

  1. 读文件
# 打开文件
file = open(r'D:\Desktop\data.txt',encoding='utf-8')
# 读取文件
data = file.read()
# 关闭文件
file.close()
  1. 预处理:大小写,标点符号,停用词
# "-"用" "代替
data = data.replace('-',' ')
# 去掉标点符号,去掉首尾
word_list[i] = word_list[i].strip(string.punctuation) 
# 统一小写
word_list[i] = word_list[i].lower() 
  1. 分词
# 生成所有单词的列表
word_list = data.split()
  1. 统计每个单词出现的次数
# 统计词频与单词
if word_list[i] in data_dict: 
    # 不是第一次
    data_dict[word_list[i]] = data_dict[word_list[i]] + 1
else:
    # 第一次
    data_dict[word_list[i]] = 1
  1. 按词频大小排序
# 遍历字典
for key,value in data_dict.items():
    # 变量值,变量
    temp = [value, key]
    # 添加数据
    data_list.append(temp)
    # 排序
    data_list.sort(reverse = True)
  1. 结果写文件
# 写入文件
with open(r'D:\Desktop\data_out.txt','w') as files:
    for value,key in data_list:
        files.write('{} {}\n'.format(value,key))
图3 data_out.txt

点击查看代码
# 导入字符串模块
import string
# 导入re模块
import re
# 导入matplotlib模块,取别名plt
import matplotlib.pyplot as plt

# 创建一个空字典,放词频和单词,无序排列
data_dict = {}
# 创建一个空列表,放词频和单词,有序排列
data_list = []

# 打开文件
file = open(r'D:\Desktop\data.txt',encoding='utf-8')
# 读取文件
data = file.read()
# 关闭文件
file.close()

# "-"用" "代替
data = data.replace('-',' ')
# 生成所有单词的列表
word_list = data.split()
# 对数据进行处理,并存入
for i in range(len(word_list)):
    # 去掉标点符号,去掉首尾
    word_list[i] = word_list[i].strip(string.punctuation) 
    # 统一小写
    word_list[i] = word_list[i].lower() 
    # 统计词频与单词
    if word_list[i] in data_dict: 
        # 不是第一次
        data_dict[word_list[i]] = data_dict[word_list[i]] + 1
    else:
        # 第一次
        data_dict[word_list[i]] = 1

# 打印字典(单词与词频,无序)
print(data_dict)

# 遍历字典
for key,value in data_dict.items():
    # 变量值,变量
    temp = [value, key]
    # 添加数据
    data_list.append(temp)
    # 排序
    data_list.sort(reverse = True)

# 打印列表(单词与词频,有序,从多到少)
print(data_list)

# 写入文件
with open(r'D:\Desktop\data_out.txt','w') as files:
    for value,key in data_list:
        files.write('{} {}\n'.format(value,key))

3.根据自己的编程习惯搭建编程环境

  1. 使用pycharm
图1 配置pycharm

新建README.md文件,上传至hdfs://master:9000/user/hadoop/README.md

图2 README.md

图3 运行程序

posted @ 2022-03-03 15:55  *啥也不是*  阅读(85)  评论(0编辑  收藏  举报