摘要: 1.1.1.Executor进程专属 如图所示: 1.1.2. 支持多种资源管理器 如图所示: 1.1.3. Job提交就近原则 如图所示: 1.1.4. 移动程序而非移动数据的原则执行 如图所示: 阅读全文
posted @ 2019-09-11 00:35 DaBai的黑屋 阅读(466) 评论(0) 推荐(0)
摘要: 1.1. Spark部署模式 Spark支持多种集群管理器(Cluster Manager),主要为: Master URL Meaning local 在本地运行,只有一个工作进程,无并行计算能力。 local[K] 在本地运行,有K个工作进程,通常设置K为机器的CPU核心数量。 local[*] 阅读全文
posted @ 2019-09-11 00:35 DaBai的黑屋 阅读(445) 评论(0) 推荐(0)
摘要: 1.1.1.计算流程 1.1.2. 从代码构建DAG图 Spark program Val lines1 = sc.textFile(inputPath1).map(...).map(...) Val lines2 = sc.textFile(inputPath2).map(...) Val lin 阅读全文
posted @ 2019-09-11 00:34 DaBai的黑屋 阅读(781) 评论(0) 推荐(0)
摘要: 1.1.1. Application/App:Spark应用程序 1.1.2. Driver:驱动程序 1.1.3. Cluster Manager:资源管理器 指的是在集群上获取资源的外部服务,常用的有: 如下图所示: 1.1.4. Worker:计算节点 集群中任何可以运行Application 阅读全文
posted @ 2019-09-11 00:33 DaBai的黑屋 阅读(406) 评论(0) 推荐(0)
摘要: 1.1.1.读取Socket数据 ●准备工作 nc -lk 9999 hadoop spark sqoop hadoop spark hive hadoop ●代码演示: import org.apache.spark.SparkContext import org.apache.spark.sql 阅读全文
posted @ 2019-09-11 00:32 DaBai的黑屋 阅读(484) 评论(0) 推荐(0)
摘要: 1.1.1.读取文本数据 spark应用可以监听某一个目录,而web服务在这个目录上实时产生日志文件,这样对于spark应用来说,日志文件就是实时数据 Structured Streaming支持的文件类型有text,csv,json,parquet ●准备工作 在people.json文件输入如下 阅读全文
posted @ 2019-09-11 00:31 DaBai的黑屋 阅读(877) 评论(0) 推荐(0)
摘要: 1 StructuredStreaming的应用场景 5.输出模式 阅读全文
posted @ 2019-09-11 00:30 DaBai的黑屋 阅读(685) 评论(0) 推荐(1)
摘要: 1.1. 计算操作 获得到Source之后的基本数据处理方式和之前学习的DataFrame、DataSet一致,不再赘述 ●官网示例代码: caseclassDeviceData(device:String, deviceType:String, signal:Double, time:DateTi 阅读全文
posted @ 2019-09-11 00:29 DaBai的黑屋 阅读(495) 评论(0) 推荐(0)
摘要: Structured Streaming曲折发展史 1.1. Spark Streaming 在2.0之前,Spark Streaming作为核心API的扩展,针对实时数据流,提供了一套可扩展、高吞吐、可容错的流式计算模型。Spark Streaming会接收实时数据源的数据,并切分成很多小的bat 阅读全文
posted @ 2019-09-11 00:28 DaBai的黑屋 阅读(1107) 评论(1) 推荐(1)
摘要: 编程模型 ●编程模型概述 一个流的数据源从逻辑上来说就是一个不断增长的动态表格,随着时间的推移,新数据被持续不断地添加到表格的末尾。 用户可以使用 Dataset/DataFrame 函数式API或者 SQL 来对这个动态数据源进行实时查询。每次查询在逻辑上就是对当前的表格内容执行一次 SQL 查询 阅读全文
posted @ 2019-09-11 00:28 DaBai的黑屋 阅读(340) 评论(0) 推荐(0)
摘要: DStream的相关操作: DStream上的操作与RDD的类似,分为以下两种: DStream上的操作与RDD的类似,分为以下两种: Transformations(转换) Output Operations(输出)/Action 1.1Transformations ●常见Transformat 阅读全文
posted @ 2019-09-11 00:27 DaBai的黑屋 阅读(670) 评论(0) 推荐(0)
摘要: Spark Streaming的基础抽是DStream(Discretized Stream,离散化数据流,连续不断的数据流),代表持续性的数据流和经过各种Spark算子操作后的结果数据流 1.DStream本质上就是一系列时间上连续的RDD 2.对DStream的数据的进行RDD操作 3.容错性 阅读全文
posted @ 2019-09-11 00:26 DaBai的黑屋 阅读(536) 评论(0) 推荐(0)
摘要: 1-- 原理: <!--more--> Spark Streaming中,会有一个接收器组件Receiver,作为一个长期运行的task跑在一个Executor上。Receiver接收外部的数据流形成input DStream DStream会被按照时间间隔划分成一批一批的RDD,当批处理间隔缩短到 阅读全文
posted @ 2019-09-11 00:25 DaBai的黑屋 阅读(243) 评论(0) 推荐(0)
摘要: 文件的路径好像有规律 难道要把结构化数据放置在这个路径下? 不一定 外部表指定文件路径 数据库.表 》 /user/hive/warehouse/数据库.db/表名 数据库.表 》 /user/hive/warehouse/数据库.db/表名 建表的字段顺序和类型一定要和文件一致。 create t 阅读全文
posted @ 2019-09-11 00:23 DaBai的黑屋 阅读(1994) 评论(0) 推荐(0)
摘要: 数据类型 要求:字段的类型和顺序要和结构化文件保持一致 hive会尝试转换 不保证转换成功 如果成功就显示 如果失败就显示null hive除了支持sql类型 还支持java类型 大小写不敏感<!--more--> hive除了支持基本类型 还支持复合类型(map array) 针对复合类型要跟分隔 阅读全文
posted @ 2019-09-11 00:23 DaBai的黑屋 阅读(392) 评论(0) 推荐(0)
摘要: Hive的数据模型-数据库 类似传统数据库的DataBase 默认数据库"default"<!--more--> 使用#hive命令后,不使用hive>use <数据库名>,系统默认的数据库。可以显式使用hive> use default; 创建一个新库 类似传统数据库的DataBase 默认数据库 阅读全文
posted @ 2019-09-11 00:22 DaBai的黑屋 阅读(325) 评论(0) 推荐(0)
摘要: 数据类型: 基本数类型: tinyint/smallint/int/bigint: 整数类型 float/double: 浮点数类型 boolean:布尔类型 string:字符串类型 tinyint/smallint/int/bigint: 整数类型 float/double: 浮点数类型 boo 阅读全文
posted @ 2019-09-11 00:21 DaBai的黑屋 阅读(260) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2019-09-11 00:20 DaBai的黑屋 阅读(131) 评论(0) 推荐(0)
摘要: ●kafka文档 Kafka Connect: <!--more--> https://kafka.apache.org/documentation/#connect http://docs.confluent.io/2.0.0/connect/connect-jdbc/docs/index.htm 阅读全文
posted @ 2019-09-11 00:19 DaBai的黑屋 阅读(173) 评论(0) 推荐(0)
摘要: ●常用命令 #启动kafka /export/servers/kafka/bin/kafka-server-start.sh -daemon /export/servers/kafka/config/server.properties #停止kafka /export/servers/kafka/b 阅读全文
posted @ 2019-09-11 00:18 DaBai的黑屋 阅读(315) 评论(0) 推荐(0)
摘要: Kafka架构 ●核心概念图解 注意: 一个Topic可以被多个消费者或者组订阅,一个消费者/组也可以订阅多个主题 注意: 读数据只能从Leader读,写数据也只能往Leader写,Follower会从Leader那里同步数据过来做副本!!! 阅读全文
posted @ 2019-09-11 00:17 DaBai的黑屋 阅读(150) 评论(0) 推荐(0)
摘要: MapReduce执行流程解析 <!--more--> MapReduce执行流程解析 阅读全文
posted @ 2019-09-11 00:13 DaBai的黑屋 阅读(200) 评论(0) 推荐(0)
摘要: ZooKeeper选举机制 <!--more--> ZooKeeper选举机制 阅读全文
posted @ 2019-09-11 00:12 DaBai的黑屋 阅读(124) 评论(0) 推荐(0)
摘要: Zookeeper全局一致性 <!--more--> Zookeeper全局一致性 阅读全文
posted @ 2019-09-11 00:12 DaBai的黑屋 阅读(339) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2019-09-11 00:11 DaBai的黑屋 阅读(165) 评论(0) 推荐(0)
摘要: HDFS的快照 一个snapshot(快照)是一个全部文件系统、或者某个目录在某一时刻的镜像 快照应用在如下场景中: 防止用户的错误操作 备份 试验/测试 灾难恢复 HDFS的快照操作 开启快照 hdfs dfsadmin -allowSnapshot /input 创建快照 hdfs dfs -c 阅读全文
posted @ 2019-09-11 00:08 DaBai的黑屋 阅读(495) 评论(0) 推荐(0)
摘要: Hadoop是什么? 狭义上: HDFS:分布式文件存储系统 MapReduce:分布式计算框架 YARN:资源管理任务调度 广义上: HDFS:分布式文件存储系统 MapReduce:分布式计算框架 YARN:资源管理任务调度 特指apache一款由java开发,开源的大户数据处理平台软件 had 阅读全文
posted @ 2019-09-11 00:06 DaBai的黑屋 阅读(275) 评论(0) 推荐(0)
摘要: hadoop hdfs 垃圾回收机制 何为垃圾回收 开启垃圾回收站 把删除的文件首先放置在回收站中 等待配置的时间结束 进行真正的数据删除 如何开始 vim core-site.xml<property><name>fs.trash.interval</name><value>1440</value 阅读全文
posted @ 2019-09-11 00:05 DaBai的黑屋 阅读(1139) 评论(0) 推荐(0)
摘要: 一、 MapReduce jobHistory JobHistory用来记录已经finished(结束)的mapreduce运行日志,日志信息存放于HDFS目录中,默认情况下没有开启此功能,需要在mapred-site.xml中配置并手动启动。 1. 修改mapred-site.xml cd /ex 阅读全文
posted @ 2019-09-11 00:04 DaBai的黑屋 阅读(484) 评论(0) 推荐(0)
摘要: hadoop初体验 namnode format操作 首次启动集群需要针对hdfs 操作 操作只需要进行一次 通常在namenode所在节点进行 format中主要创建了hadoop运行时依赖的一些文件夹和文件 Storage directory /export/data/hadoopdata/df 阅读全文
posted @ 2019-09-11 00:03 DaBai的黑屋 阅读(206) 评论(0) 推荐(0)
摘要: Hadoop2.x的安装与配置(文档有详细) (一)Hadoop安装部署的预备条件 安装Linux 安装JDK hadoop集群搭建 hadoop发行版本 社区版:官方版本 apache社区维护 优点:功能最新的 免费 缺点:稳定性 兼容性不好 https://archive.apache.org/ 阅读全文
posted @ 2019-09-11 00:00 DaBai的黑屋 阅读(1141) 评论(1) 推荐(1)
Live2D