一、安装Spark

  1. 检查基础环境hadoop,jdk 

              查看 jdk 环境 ( java  -version )

             

             查看 hadoop环境 ( hadoop version )

   

           

  2.下载spark 

          

        

       3.解压,文件夹重命名、权限

    解压 

          

    重命名

    

    赋权(可以不用)

  

  

      4. 配置 Spark 环境变量

  

 

  6. 试运行Python代码 ( 打印HelloWorld )

  

 

二、Python编程练习:英文文本的词频统计

  1. 准备文本文件

          

  

    

      2.读文件

  

text = open("word.txt", "r").read()

 

      3. 预处理:大小写,标点符号,停用词

# 将文本中的所有大写字母转换为小写字母( 大写也可 )
 text = text.lower()
# 替换文本中的所有特殊符号为空格
 for c in '!"#$%^&*()_+-=@[]{}|\?/<>,.:;~·`、“”‘’':
      text = text.replace(c, " ")

  

  4. 分词

# 将处理好的文本切分成列表
words = text.split()

 

      5. 统计每个单词出现的次数

# 遍历列表,统计词出现的次数
for word in words:
    count[word] = count.get(word, 0) + 1

  

      6. 按词频大小排序

# 定义空字典
count = {}
# 遍历列表,统计词出现的次数
for word in words:
    count[word] = count.get(word, 0) + 1

  

      7. 结果写文件

file = open("result.txt", "w")
for i in range(len(items)):
    # 从items[i]中一次返回单词和单词的词频
    word, count = items[i]
    str ="单词{0:<10}出现次数为:{1:>5}\n".format(word, count)
    file.write(str)

  

        最终结果

  

 

3. 使用Jupyter Notebook调试PySpark程序

     1 安装Anaconda

   

     2. 查看Anaconda的版本信息

 

  3. 配置Jupyter Notebook( 过程与 http://dblab.xmu.edu.cn/blog/2575-2/ 一样 )

   

 

4. 运行Jupyter Notebook

jupyter notebook --ip=0.0.0.0 --allow-root

打印HelloWorld

保存

 

 

4. 配置Jupyter Notebook实现和PySpark交互

        1. 配置环境变量

 

        2.  运行程序 

 

posted on 2022-03-03 21:16  直接开摆  阅读(44)  评论(0编辑  收藏  举报