随笔分类 - spark学习记录
摘要:一.练习目标 1.Flume.监控/tmp/logs/update.log文件 2.创建日志生成的脚本,写入/tmp/logs/update.log。 3.Flume捕获数据 4.将捕获的数据,推送到消息队列kafka 5.在Kafka模拟数据消费 1.解压并安装flume tar -zxvf ap
阅读全文
摘要:1.下载并解压至指定目录 下载地址:http://kafka.apache.org/downloads tar -zxvf kafka_2.11-0.10.1.0.tgz kafka_2.11-0.10.1.0 //解压 mv kafka_2.11-0.10.1.0 /opt/soft/kafka
阅读全文
摘要:reduce(func) 通过func函数聚集RDD中的所有元素,这个功能必须是可交换且可并联的 scala> val rdd1 = sc.makeRDD(1 to 10,2) rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[8
阅读全文
摘要:1、创建一个spark程序 1.1 基于Maven构建Scala工程 1.2 加入Pom.xml <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="
阅读全文
摘要:1.1 RDD算子的分类 Transformation(转换):根据数据集创建一个新的 数据集,计算后返回一个新的RDD。例如,一个RDD进行map操作后,生成了新的RDD。 Action(动作):对RDD结果计算返回一个数值value给驱动程序,或者把结果存储到外部存储系统中; 例如:collec
阅读全文
摘要:Spark的高可用部署 1.高可用部署说明 Spark Standalone集群是Master-Slaves架构的集群模式,和大部分的Master-Slaves结构集群一样,存着Master单点故障的问题。如何解决这个问题,Spark提供了两种方案: (1)基于文件系统的单点恢复(Single-No
阅读全文
摘要:1.前提条件 1.1创建3台虚拟机,且配置好网络,建立好互信(ssh免密)。 1.2 Java1.8环境已经配置好 1.3 Hadoop集群已经完成搭建 1.4 Scala软件包和Spark软件包的下载 https://www.scala-lang.org/download/ http://spar
阅读全文

浙公网安备 33010602011771号