安装spark和python练习

一、安装Spark

1.检查基础环境的hadoop

2.下载,解压文件

sudo tar -zxvf ./  解压./后的文件

3.配置文件

编辑该配置文件,在文件最后面加上如下一行内容:

export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)

4.环境变量

在gedit ~/.bashrc加入代码

export SPARK_HOME=/usr/local/spark
export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.9-src.zip:PYTHONPATH
export PYSPARK_PYTHON=python3
export PATH=$PATH:$SPARK_HOME/bin

5.启动pyspark

二、Python编程练习:英文文本的词频统计

1.准备文本文档

上百度复制一段英文即可

在gedit wc.py

path='/home/hadoop/wc/ff1.txt'
with open(path) as f:
    text=f.read()
words = text.split()
wc={}
for word in words:
    wc[word]=wc.get(word,0)+1
wclist=list(wc.items())
wclist.sort(key=lambda x:x[1],reverse=True)
print(wclist)

 

 

 

posted @ 2022-03-01 16:34  金世佳  阅读(73)  评论(0)    收藏  举报