摘要: 学习路线 介绍完大数据框架,接着就可以介绍其对应的学习路线了,主要分为以下几个方面: 语言基础 1. Java 大数据框架大多采用 Java 语言进行开发,并且几乎全部的框架都会提供 Java API 。Java 是目前比较主流的后台开发语言,目前大多数框架要求 Java 版本至少是 1.8,这是由 阅读全文
posted @ 2019-09-14 20:24 DaBai的黑屋 阅读(287) 评论(0) 推荐(0) 编辑
摘要: 一、 Hadoop High Availability HA(High Available), 高可用,是保证业务连续性的有效解决方案,一般有两个或两个以上的节点,分为活动节点(Active)及备用节点(Standby)。通常把正在执行业务的称为活动节点,而作为活动节点的一个备份的则称为备用节点。当 阅读全文
posted @ 2019-09-14 20:13 DaBai的黑屋 阅读(202) 评论(0) 推荐(0) 编辑
摘要: 在一个公司内部的Hadoop Yarn集群,肯定会被多个业务、多个用户同时使用,共享Yarn的资源,如果不做资源的管理与规划,那么整个Yarn的资源很容易被某一个用户提交的Application占满,其它任务只能等待,这种当然很不合理,我们希望每个业务都有属于自己的特定资源来运行MapReduce任 阅读全文
posted @ 2019-09-14 20:12 DaBai的黑屋 阅读(1831) 评论(0) 推荐(0) 编辑
摘要: 一、 Hadoop集群动态扩容、缩容 随着公司业务的增长,数据量越来越大,原有的datanode节点的容量已经不能满足存储数据的需求,需要在原有集群基础上动态添加新的数据节点。也就是俗称的动态扩容。 有时候旧的服务器需要进行退役更换,暂停服务,可能就需要在当下的集群中停止某些机器上hadoop的服务 阅读全文
posted @ 2019-09-14 18:23 DaBai的黑屋 阅读(6057) 评论(0) 推荐(0) 编辑
摘要: 介绍:<!--more--> HDFS (Hadoop Distributed File System)是 Hadoop 下的分布式文件系统,具有高容错、高吞吐量等特性,可以部署在低成本的硬件上。 HDFS 设计原理 HDFS 架构 HDFS 遵循主/从架构,由单个 NameNode(NN) 和多个 阅读全文
posted @ 2019-09-14 18:11 DaBai的黑屋 阅读(448) 评论(0) 推荐(0) 编辑
摘要: 1.1.1.Executor进程专属 如图所示: 1.1.2. 支持多种资源管理器 如图所示: 1.1.3. Job提交就近原则 如图所示: 1.1.4. 移动程序而非移动数据的原则执行 如图所示: 阅读全文
posted @ 2019-09-11 00:35 DaBai的黑屋 阅读(438) 评论(0) 推荐(0) 编辑
摘要: 1.1. Spark部署模式 Spark支持多种集群管理器(Cluster Manager),主要为: Master URL Meaning local 在本地运行,只有一个工作进程,无并行计算能力。 local[K] 在本地运行,有K个工作进程,通常设置K为机器的CPU核心数量。 local[*] 阅读全文
posted @ 2019-09-11 00:35 DaBai的黑屋 阅读(398) 评论(0) 推荐(0) 编辑
摘要: 1.1.1.计算流程 1.1.2. 从代码构建DAG图 Spark program Val lines1 = sc.textFile(inputPath1).map(...).map(...) Val lines2 = sc.textFile(inputPath2).map(...) Val lin 阅读全文
posted @ 2019-09-11 00:34 DaBai的黑屋 阅读(747) 评论(0) 推荐(0) 编辑
摘要: 1.1.1. Application/App:Spark应用程序 1.1.2. Driver:驱动程序 1.1.3. Cluster Manager:资源管理器 指的是在集群上获取资源的外部服务,常用的有: 如下图所示: 1.1.4. Worker:计算节点 集群中任何可以运行Application 阅读全文
posted @ 2019-09-11 00:33 DaBai的黑屋 阅读(334) 评论(0) 推荐(0) 编辑
摘要: 1.1.1.读取Socket数据 ●准备工作 nc -lk 9999 hadoop spark sqoop hadoop spark hive hadoop ●代码演示: import org.apache.spark.SparkContext import org.apache.spark.sql 阅读全文
posted @ 2019-09-11 00:32 DaBai的黑屋 阅读(468) 评论(0) 推荐(0) 编辑
Live2D