2.安装Spark与Python练习

一、安装spark

1.查看jdk安装路径

 

echo $JAVA_HOME

 

 

 2.查看java版本

 

java -version

 

 

3.启动spark的环境准备

 

start-dfs.sh
jps

 

 

 4.启动spark

 

pyspark

 

 

 5.简单测试

 

print("spark")
8*2+5
exit()

 

 二、Python编程练习:英文文本的词频统计

import string
# 1、打开文本
file1 = open('01.txt', 'r')
# 读取文本
txt = file1.read()
# 2、将所有字母转化为小写
txt.lower()
# 3、将各种特殊字符和标点符号都替换为空格,便于切分
for ch in string.punctuation:
    txt = txt.replace(ch, " ")
# 4、对文本进行切分
words = txt.split()
# 5、创建词典,存放统计结果
result = {}
for word in words:
    result[word] = result.get(word, 0) + 1
# 6、转化为列表,便于排序
items = list(result.items())
# 7、按词频高到低排序
items.sort(key=lambda x: x[1], reverse=True)
# print(items)
# 输出词频排前10的单词
for i in range(10):
    print(items[i])
# 8、写入文件
file2 = open('result.txt', 'w')
for i in items:
    for j in i:
        file2.write(str(j)+" ")
    file2.write("\n")

file1.close()
file2.close()

输出结果:

 

posted @ 2022-03-01 10:40  张三!?  阅读(30)  评论(0)    收藏  举报