spark单机部署

官网
https://spark.apache.org/

# spark版本文档列表
https://spark.apache.org/docs/

# 查看指定版本文档
https://spark.apache.org/docs/2.4.7/

# 下载安装包
https://spark.apache.org/downloads.html
配置环境变量
export SPARK_HOME=/opt/pmo/data/spark/spark-1.6.3-bin-hadoop2.6
export PATH=$PATH:$SPARK_HOME/bin
source /etc/profile

单机部署测试

解压后执行 bin/spark-shell 进入scala命令行
可以执行命令
scala>sc.textFile("/data/testdata.txt").flatMap(_.split(" ")).map(Tuple2(_,1)).reduceByKey(_+_).foreach(println)

文件/data/testdata.txt内容
hello world
hello msb
hello spark
good spark

输出
(spark,2)
(hello,3)
(msb,1)
(good,1)
(world,1)
测试hadoop的文件统计
bin/spark-shell
scala > sc.textFile("/derby.log").filter(line=>line.contains("os")).count()
scala > sc.textFile("/derby.log").count()
使用scala语言统计的代码讲解
在输出日志中会出现地址可以访问代码执行流程:http://DESKTOP-4C0OVBC:4040
只有遇到foreach方法时,流程才会执行,因为foreach内部实现调用了方法runJob
posted @ 2023-10-21 11:47  rbcd  阅读(41)  评论(0)    收藏  举报