yjyyjy

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

Spark 高级版本对 python 的支持已经好很多了。喜欢用Python 的小伙伴也可以用Spark 来做高性能的数据分析!环境搭建步骤如下:

视频链接地址:

https://study.163.com/course/courseLearn.htm?courseId=1210073161#/learn/video?lessonId=1280925800&courseId=1210073161

 

1. 安装Python

 

  • 下载Python 安装包(32 bit 也可以在 64 bit 机器上运行, 下载哪种都可以): https://www.python.org/downloads/
  • 安装并设置环境变量PATH: 把 python 安装的目录和 script 目录添加到环境变量 PATH  

  

  

  检查python 是否安装OK:

  

 

2. 安装 Spark

      
  
  •   解压目录就是Spark 安装目录,所以为了 方便起见 可以把文件夹改名字为 Spark 即可。
  •   添加环境变量 SPARK_HOME
      
  •   添加 Spark bin 目录到环境变量 PATH

      

 

 

3 启动 Pyspark

  • 运行pyspark 启动 spark context:

    

    可以看到上面连个 ation 的运行记录: count 和 collect

    

 

posted on 2020-05-09 22:46  闭关49天  阅读(513)  评论(1编辑  收藏  举报