2.安装Spark与Python练习
一、安装spark
1.查看jdk安装路径
echo $JAVA_HOME

2.查看java版本
java -version

3.启动spark的环境准备
start-dfs.sh
jps

4.启动spark
pyspark

5.简单测试
print("spark") 8*2+5 exit()

二、Python编程练习:英文文本的词频统计
import string # 1、打开文本 file1 = open('01.txt', 'r') # 读取文本 txt = file1.read() # 2、将所有字母转化为小写 txt.lower() # 3、将各种特殊字符和标点符号都替换为空格,便于切分 for ch in string.punctuation: txt = txt.replace(ch, " ") # 4、对文本进行切分 words = txt.split() # 5、创建词典,存放统计结果 result = {} for word in words: result[word] = result.get(word, 0) + 1 # 6、转化为列表,便于排序 items = list(result.items()) # 7、按词频高到低排序 items.sort(key=lambda x: x[1], reverse=True) # print(items) # 输出词频排前10的单词 for i in range(10): print(items[i]) # 8、写入文件 file2 = open('result.txt', 'w') for i in items: for j in i: file2.write(str(j)+" ") file2.write("\n") file1.close() file2.close()
输出结果:



浙公网安备 33010602011771号