随笔档案「2019年9月11日」：Spark运行架构特点 ... - DaBai的黑屋

2019年9月11日

摘要： 1.1.1.Executor进程专属如图所示: 1.1.2. 支持多种资源管理器如图所示: 1.1.3. Job提交就近原则如图所示: 1.1.4. 移动程序而非移动数据的原则执行如图所示: 阅读全文

posted @ 2019-09-11 00:35 DaBai的黑屋阅读(469) 评论(0) 推荐(0)

摘要： 1.1. Spark部署模式 Spark支持多种集群管理器（Cluster Manager），主要为： Master URL Meaning local 在本地运行，只有一个工作进程，无并行计算能力。 local[K] 在本地运行，有K个工作进程，通常设置K为机器的CPU核心数量。 local[*] 阅读全文

posted @ 2019-09-11 00:35 DaBai的黑屋阅读(447) 评论(0) 推荐(0)

Spark运行流程

摘要： 1.1.1.计算流程 1.1.2. 从代码构建DAG图 Spark program Val lines1 = sc.textFile(inputPath1).map(...).map(...) Val lines2 = sc.textFile(inputPath2).map(...) Val lin 阅读全文

posted @ 2019-09-11 00:34 DaBai的黑屋阅读(781) 评论(0) 推荐(0)

Spark专业术语定义

摘要： 1.1.1. Application/App：Spark应用程序 1.1.2. Driver：驱动程序 1.1.3. Cluster Manager：资源管理器指的是在集群上获取资源的外部服务，常用的有：如下图所示: 1.1.4. Worker：计算节点集群中任何可以运行Application 阅读全文

posted @ 2019-09-11 00:33 DaBai的黑屋阅读(412) 评论(0) 推荐(0)

Structured Streaming 实战案例读取Scoker

摘要： 1.1.1.读取Socket数据 ●准备工作 nc -lk 9999 hadoop spark sqoop hadoop spark hive hadoop ●代码演示： import org.apache.spark.SparkContext import org.apache.spark.sql 阅读全文

posted @ 2019-09-11 00:32 DaBai的黑屋阅读(484) 评论(0) 推荐(0)

Structured Streaming 实战案例读取文本数据

摘要： 1.1.1.读取文本数据 spark应用可以监听某一个目录，而web服务在这个目录上实时产生日志文件，这样对于spark应用来说，日志文件就是实时数据 Structured Streaming支持的文件类型有text，csv，json，parquet ●准备工作在people.json文件输入如下阅读全文

posted @ 2019-09-11 00:31 DaBai的黑屋阅读(878) 评论(0) 推荐(0)

StructuredStreaming总结

摘要： 1 StructuredStreaming的应用场景 5.输出模式阅读全文

posted @ 2019-09-11 00:30 DaBai的黑屋阅读(687) 评论(0) 推荐(1)

Structured Streaming 计算操作And输出操作

摘要： 1.1. 计算操作获得到Source之后的基本数据处理方式和之前学习的DataFrame、DataSet一致，不再赘述 ●官网示例代码： caseclassDeviceData(device:String, deviceType:String, signal:Double, time:DateTi 阅读全文

posted @ 2019-09-11 00:29 DaBai的黑屋阅读(501) 评论(0) 推荐(0)

Structured Streaming曲折发展史

摘要： Structured Streaming曲折发展史 1.1. Spark Streaming 在2.0之前，Spark Streaming作为核心API的扩展，针对实时数据流，提供了一套可扩展、高吞吐、可容错的流式计算模型。Spark Streaming会接收实时数据源的数据，并切分成很多小的bat 阅读全文

posted @ 2019-09-11 00:28 DaBai的黑屋阅读(1108) 评论(1) 推荐(1)

Structured Streaming编程模型

摘要：编程模型 ●编程模型概述一个流的数据源从逻辑上来说就是一个不断增长的动态表格，随着时间的推移，新数据被持续不断地添加到表格的末尾。用户可以使用 Dataset/DataFrame 函数式API或者 SQL 来对这个动态数据源进行实时查询。每次查询在逻辑上就是对当前的表格内容执行一次 SQL 查询阅读全文

posted @ 2019-09-11 00:28 DaBai的黑屋阅读(344) 评论(0) 推荐(0)

SparkStreaming DStream相关操作

摘要： DStream的相关操作： DStream上的操作与RDD的类似，分为以下两种： DStream上的操作与RDD的类似，分为以下两种： Transformations(转换) Output Operations(输出)/Action 1.1Transformations ●常见Transformat 阅读全文

posted @ 2019-09-11 00:27 DaBai的黑屋阅读(673) 评论(0) 推荐(0)

SparkStreaming的数据抽象 DStream

摘要： Spark Streaming的基础抽是DStream(Discretized Stream，离散化数据流，连续不断的数据流)，代表持续性的数据流和经过各种Spark算子操作后的结果数据流 1.DStream本质上就是一系列时间上连续的RDD 2.对DStream的数据的进行RDD操作 3.容错性阅读全文

posted @ 2019-09-11 00:26 DaBai的黑屋阅读(541) 评论(0) 推荐(0)

Spark Streaming原理

摘要： 1-- 原理：  Spark Streaming中，会有一个接收器组件Receiver，作为一个长期运行的task跑在一个Executor上。Receiver接收外部的数据流形成input DStream DStream会被按照时间间隔划分成一批一批的RDD，当批处理间隔缩短到阅读全文

posted @ 2019-09-11 00:25 DaBai的黑屋阅读(247) 评论(0) 推荐(0)

如何把hdfs上的一个结构化数据映射为hive的一张表

摘要：文件的路径好像有规律难道要把结构化数据放置在这个路径下？不一定外部表指定文件路径数据库.表》 /user/hive/warehouse/数据库.db/表名数据库.表》 /user/hive/warehouse/数据库.db/表名建表的字段顺序和类型一定要和文件一致。 create t 阅读全文

posted @ 2019-09-11 00:23 DaBai的黑屋阅读(1997) 评论(0) 推荐(0)

Hive 基本操作 DDL

摘要：数据类型要求：字段的类型和顺序要和结构化文件保持一致 hive会尝试转换不保证转换成功如果成功就显示如果失败就显示null hive除了支持sql类型还支持java类型大小写不敏感 hive除了支持基本类型还支持复合类型（map array）针对复合类型要跟分隔阅读全文

posted @ 2019-09-11 00:23 DaBai的黑屋阅读(396) 评论(0) 推荐(0)

Hive数据模型

摘要： Hive的数据模型-数据库类似传统数据库的DataBase 默认数据库"default" 使用#hive命令后，不使用hive>use <数据库名>，系统默认的数据库。可以显式使用hive> use default; 创建一个新库类似传统数据库的DataBase 默认数据库阅读全文

posted @ 2019-09-11 00:22 DaBai的黑屋阅读(326) 评论(0) 推荐(0)

Hive的数据类型

摘要：数据类型：基本数类型： tinyint/smallint/int/bigint: 整数类型 float/double: 浮点数类型 boolean：布尔类型 string：字符串类型 tinyint/smallint/int/bigint: 整数类型 float/double: 浮点数类型 boo 阅读全文

posted @ 2019-09-11 00:21 DaBai的黑屋阅读(262) 评论(0) 推荐(0)

Kafka总结

摘要：阅读全文

posted @ 2019-09-11 00:20 DaBai的黑屋阅读(132) 评论(0) 推荐(0)

Kafka整合文档

摘要： ●kafka文档 Kafka Connect:  https://kafka.apache.org/documentation/#connect http://docs.confluent.io/2.0.0/connect/connect-jdbc/docs/index.htm 阅读全文

posted @ 2019-09-11 00:19 DaBai的黑屋阅读(175) 评论(0) 推荐(0)

Kafka常用命令

摘要： ●常用命令 #启动kafka /export/servers/kafka/bin/kafka-server-start.sh -daemon /export/servers/kafka/config/server.properties #停止kafka /export/servers/kafka/b 阅读全文

posted @ 2019-09-11 00:18 DaBai的黑屋阅读(315) 评论(0) 推荐(0)

Kafka架构

摘要： Kafka架构 ●核心概念图解注意：一个Topic可以被多个消费者或者组订阅，一个消费者/组也可以订阅多个主题注意：读数据只能从Leader读，写数据也只能往Leader写，Follower会从Leader那里同步数据过来做副本！！！阅读全文

posted @ 2019-09-11 00:17 DaBai的黑屋阅读(151) 评论(0) 推荐(0)

MapReduce执行流程解析

摘要： MapReduce执行流程解析  MapReduce执行流程解析阅读全文

posted @ 2019-09-11 00:13 DaBai的黑屋阅读(201) 评论(0) 推荐(0)

ZooKeeper选举机制

摘要： ZooKeeper选举机制  ZooKeeper选举机制阅读全文

posted @ 2019-09-11 00:12 DaBai的黑屋阅读(125) 评论(0) 推荐(0)

Zookeeper全局一致性

摘要： Zookeeper全局一致性  Zookeeper全局一致性阅读全文

posted @ 2019-09-11 00:12 DaBai的黑屋阅读(340) 评论(0) 推荐(0)

Zookeeper总结

摘要：阅读全文

posted @ 2019-09-11 00:11 DaBai的黑屋阅读(167) 评论(0) 推荐(0)

HDFS的快照

摘要： HDFS的快照一个snapshot（快照）是一个全部文件系统、或者某个目录在某一时刻的镜像快照应用在如下场景中：防止用户的错误操作备份试验/测试灾难恢复 HDFS的快照操作开启快照 hdfs dfsadmin -allowSnapshot /input 创建快照 hdfs dfs -c 阅读全文

posted @ 2019-09-11 00:08 DaBai的黑屋阅读(496) 评论(0) 推荐(0)

Hadoop总结：

摘要： Hadoop是什么？狭义上： HDFS：分布式文件存储系统 MapReduce：分布式计算框架 YARN：资源管理任务调度广义上： HDFS：分布式文件存储系统 MapReduce：分布式计算框架 YARN：资源管理任务调度特指apache一款由java开发，开源的大户数据处理平台软件 had 阅读全文

posted @ 2019-09-11 00:06 DaBai的黑屋阅读(278) 评论(0) 推荐(0)

HDFS的垃圾回收机制

摘要： hadoop hdfs 垃圾回收机制何为垃圾回收开启垃圾回收站把删除的文件首先放置在回收站中等待配置的时间结束进行真正的数据删除如何开始 vim core-site.xml<property><name>fs.trash.interval</name><value>1440</value 阅读全文

posted @ 2019-09-11 00:05 DaBai的黑屋阅读(1144) 评论(0) 推荐(0)

MapReduce jobHistory--结束日志

摘要：一、 MapReduce jobHistory JobHistory用来记录已经finished（结束）的mapreduce运行日志，日志信息存放于HDFS目录中，默认情况下没有开启此功能，需要在mapred-site.xml中配置并手动启动。 1．修改mapred-site.xml cd /ex 阅读全文

posted @ 2019-09-11 00:04 DaBai的黑屋阅读(485) 评论(0) 推荐(0)

hadoop初体验

摘要： hadoop初体验 namnode format操作首次启动集群需要针对hdfs 操作操作只需要进行一次通常在namenode所在节点进行 format中主要创建了hadoop运行时依赖的一些文件夹和文件 Storage directory /export/data/hadoopdata/df 阅读全文

posted @ 2019-09-11 00:03 DaBai的黑屋阅读(206) 评论(0) 推荐(0)

Hadoop2.x的安装与配置

摘要： Hadoop2.x的安装与配置（文档有详细）（一）Hadoop安装部署的预备条件安装Linux 安装JDK hadoop集群搭建 hadoop发行版本社区版：官方版本 apache社区维护优点：功能最新的免费缺点：稳定性兼容性不好 https://archive.apache.org/ 阅读全文

posted @ 2019-09-11 00:00 DaBai的黑屋阅读(1145) 评论(1) 推荐(1)

DaBai的黑屋

无法浪费时间，浪费的只是自己！

公告