摘要: https://www.cnblogs.com/linyuhong/p/9968056.html 阅读全文
posted @ 2020-06-13 11:15 phy2020 阅读(140) 评论(0) 推荐(0)
摘要: https://georgedage.blog.csdn.net/article/details/106206712 阅读全文
posted @ 2020-06-12 10:30 phy2020 阅读(580) 评论(0) 推荐(0)
摘要: <?xml version="1.0" encoding="UTF-8"?> <web-app version="3.0" xmlns="http://java.sun.com/xml/ns/javaee" xmlns:xsi="http://www.w3.org/2001/XMLSchema-in 阅读全文
posted @ 2020-06-10 10:22 phy2020 阅读(1253) 评论(0) 推荐(0)
摘要: 一.练习目标 1.Flume.监控/tmp/logs/update.log文件 2.创建日志生成的脚本,写入/tmp/logs/update.log。 3.Flume捕获数据 4.将捕获的数据,推送到消息队列kafka 5.在Kafka模拟数据消费 1.解压并安装flume tar -zxvf ap 阅读全文
posted @ 2020-04-29 11:57 phy2020 阅读(248) 评论(0) 推荐(0)
摘要: 1.下载并解压至指定目录 下载地址:http://kafka.apache.org/downloads tar -zxvf kafka_2.11-0.10.1.0.tgz kafka_2.11-0.10.1.0 //解压 mv kafka_2.11-0.10.1.0 /opt/soft/kafka 阅读全文
posted @ 2020-04-29 11:22 phy2020 阅读(1113) 评论(0) 推荐(0)
摘要: reduce(func) 通过func函数聚集RDD中的所有元素,这个功能必须是可交换且可并联的 scala> val rdd1 = sc.makeRDD(1 to 10,2) rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[8 阅读全文
posted @ 2020-04-22 16:48 phy2020 阅读(184) 评论(0) 推荐(0)
摘要: 1、创建一个spark程序 1.1 基于Maven构建Scala工程 1.2 加入Pom.xml <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi=" 阅读全文
posted @ 2020-04-22 13:47 phy2020 阅读(367) 评论(0) 推荐(0)
摘要: 1.1 RDD算子的分类 Transformation(转换):根据数据集创建一个新的 数据集,计算后返回一个新的RDD。例如,一个RDD进行map操作后,生成了新的RDD。 Action(动作):对RDD结果计算返回一个数值value给驱动程序,或者把结果存储到外部存储系统中; 例如:collec 阅读全文
posted @ 2020-04-21 20:30 phy2020 阅读(244) 评论(0) 推荐(0)
摘要: Spark的高可用部署 1.高可用部署说明 Spark Standalone集群是Master-Slaves架构的集群模式,和大部分的Master-Slaves结构集群一样,存着Master单点故障的问题。如何解决这个问题,Spark提供了两种方案: (1)基于文件系统的单点恢复(Single-No 阅读全文
posted @ 2020-04-18 00:09 phy2020 阅读(2441) 评论(0) 推荐(0)
摘要: 单机版安装 一、安装前提 1. 关闭Linux(CentOS7.X版本)的防火墙,关闭selinux、networkmanager等网络和安全相关的配置 关闭防火墙:systemctl stop firewalld 永久关闭防火墙:systemctl disable firewalld 2. 下载安 阅读全文
posted @ 2020-04-17 23:51 phy2020 阅读(324) 评论(0) 推荐(0)