spark学习记录 - 随笔分类 - phy2020

flume集成kafka

摘要：一.练习目标 1.Flume.监控/tmp/logs/update.log文件 2.创建日志生成的脚本，写入/tmp/logs/update.log。 3.Flume捕获数据 4.将捕获的数据，推送到消息队列kafka 5.在Kafka模拟数据消费 1.解压并安装flume tar -zxvf ap 阅读全文

posted @ 2020-04-29 11:57 phy2020 阅读(249) 评论(0) 推荐(0)

KAFKA集群安装和配置

摘要：1.下载并解压至指定目录下载地址：http://kafka.apache.org/downloads tar -zxvf kafka_2.11-0.10.1.0.tgz kafka_2.11-0.10.1.0 //解压 mv kafka_2.11-0.10.1.0 /opt/soft/kafka 阅读全文

posted @ 2020-04-29 11:22 phy2020 阅读(1115) 评论(0) 推荐(0)

Action算子练习

摘要：reduce(func) 通过func函数聚集RDD中的所有元素，这个功能必须是可交换且可并联的 scala> val rdd1 = sc.makeRDD(1 to 10,2) rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[8 阅读全文

posted @ 2020-04-22 16:48 phy2020 阅读(184) 评论(0) 推荐(0)

spark程序，创建提交和运行

摘要：1、创建一个spark程序 1.1 基于Maven构建Scala工程 1.2 加入Pom.xml <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi=" 阅读全文

posted @ 2020-04-22 13:47 phy2020 阅读(367) 评论(0) 推荐(0)

spark之RDD算子

摘要：1.1 RDD算子的分类 Transformation(转换):根据数据集创建一个新的数据集，计算后返回一个新的RDD。例如，一个RDD进行map操作后，生成了新的RDD。 Action(动作)：对RDD结果计算返回一个数值value给驱动程序，或者把结果存储到外部存储系统中；例如：collec 阅读全文

posted @ 2020-04-21 20:30 phy2020 阅读(245) 评论(0) 推荐(0)

spark+zookeeper高可用集群搭建

摘要：Spark的高可用部署 1.高可用部署说明 Spark Standalone集群是Master-Slaves架构的集群模式，和大部分的Master-Slaves结构集群一样，存着Master单点故障的问题。如何解决这个问题，Spark提供了两种方案：（1）基于文件系统的单点恢复（Single-No 阅读全文

posted @ 2020-04-18 00:09 phy2020 阅读(2443) 评论(0) 推荐(0)

Spark集群式安装部署

摘要：1.前提条件 1.1创建3台虚拟机，且配置好网络，建立好互信(ssh免密)。 1.2 Java1.8环境已经配置好 1.3 Hadoop集群已经完成搭建 1.4 Scala软件包和Spark软件包的下载 https://www.scala-lang.org/download/ http://spar 阅读全文

posted @ 2020-04-16 23:30 phy2020 阅读(566) 评论(0) 推荐(0)

phy2020

随笔分类 - spark学习记录

公告