摘要:
git是目前流行的分布式版本管理系统。 它拥有两套版本库,本地库和远程库,在不进行合并和删除之类的操作时这两套版本库互不影响。也因此其近乎所有的操作都是本地执行,所以在断网的情况下任然可以提交代码,切换分支。git又使用了SHA-1哈希算法确保了在文件传输时变得不完整、磁盘损坏导致数据丢失时能立即察 阅读全文
posted @ 2021-07-23 17:49
民宿
阅读(237)
评论(0)
推荐(0)
摘要:
在项目中使用Maven管理jar包依赖,往往会出现以下状况: 1、国内访问maven默认远程中央镜像特别慢; 2、使用阿里的镜像替代远程中央镜像; 3、阿里云镜像中缺少部分jar包; 4、同时使用私有仓库和公有仓库; 针对以上情况,我们就需要让Maven支持多仓库配置。 单独仓库配置 当只配置一个仓 阅读全文
posted @ 2021-07-23 15:31
民宿
阅读(20715)
评论(0)
推荐(1)
摘要:
Flink运行时的组件 Flink运行时架构主要包括四个不同的组件,它们会在运行流处理应用程序时协同工作:作业管理器(JobManager)、资源管理器(ResourceManager)、任务管理器(TaskManager),以及分发器(Dispatcher)。因为Flink是用Java和Scala 阅读全文
posted @ 2021-07-23 13:50
民宿
阅读(374)
评论(0)
推荐(0)
摘要:
背景 (1)问题背景 线上集群 Container 日志上报的事务集群 namenode rpc 持续飙高,影响到了 Yarn 分配 Container 的性能,任务提交数下降,导致整个集群的吞吐量下降。 (2)原因简介 作业提交到 Yarn 集群时,每个 NM 节点都会对每个 app 作业进行日志 阅读全文
posted @ 2021-07-23 13:11
民宿
阅读(1120)
评论(0)
推荐(0)
摘要:
一、聚合日志介绍 日志聚集是YARN提供的日志中央化管理功能,它能将运行完成的Container任务日志上传到HDFS上,从而减轻NodeManager负载,且提供一个中央化存储和分析机制。默认情况下,Container 任务日志存在在各个NodeManager上,保存在"yarn.nodemana 阅读全文
posted @ 2021-07-23 13:09
民宿
阅读(510)
评论(0)
推荐(0)
摘要:
一、Spark 相关术语 Driver(通常用 SparkContext 代表 Drive):表示运行 Application的main() 函数,并创建 SparkContext。其中创建 SparkContext 的目的是为了准备 Spark 应用程序的运行环境。在 Spark 中由 Spark 阅读全文
posted @ 2021-07-23 13:05
民宿
阅读(329)
评论(0)
推荐(0)
摘要:
一、Yarn 架构 1.1 基本概念 Yarn 采用传统的 master-slave 架构模式,其主要由 4 种组件组成,它们的主要功能如下: ResourceManager(RM):全局资源管理器,负责整个系统的资源管理和分配; 处理客户端请求 启动/监控ApplicationMaster 监控N 阅读全文
posted @ 2021-07-23 12:02
民宿
阅读(351)
评论(0)
推荐(0)
摘要:
本文主要介绍 ApplicationMaster 的运行流程,并从 ApplicationMaster 的启动、注册/心跳、Container 资源申请与分配三个角度分析相关源码。其中花了大量篇幅介绍 ApplicationMaster 的启动过程,包括任务提交流程、App/Attempt 转换过程 阅读全文
posted @ 2021-07-23 11:39
民宿
阅读(261)
评论(0)
推荐(0)
摘要:
在 《ApplicationMaster启动及资源申请源码分析》中,AM 向 RM 注册后,会周期性地通过 RPC 函数 ApplicationMaster#allocate() 与 RM 通信,通信目的包括请求资源、获取新分配的资源及形成周期性心跳,本文中我们重点看看 AM 向 RM 申请到 Co 阅读全文
posted @ 2021-07-23 11:37
民宿
阅读(644)
评论(0)
推荐(0)
摘要:
NodeManager(NM)是 Yarn 中单个节点上的代理,它管理 Hadoop 集群中单个计算节点,功能包括与 ResourceManager 保持通信、管理 Container 的生命周期、监控每个 Container 的资源使用情况、追踪节点健康状况、管理日志和不同应用程序用到的附属服务( 阅读全文
posted @ 2021-07-23 11:34
民宿
阅读(312)
评论(0)
推荐(0)
摘要:
一、经典MapReduce的作业运行机制 如下图是经典MapReduce作业的工作原理: 1.1 经典MapReduce作业的实体 经典MapReduce作业运行过程包含的实体: 客户端,提交MapReduce作业。 JobTracker,协调作业的运行。JobTracker是一个Java应用程序, 阅读全文
posted @ 2021-07-23 11:30
民宿
阅读(218)
评论(0)
推荐(0)
摘要:
一、ResourceManager基本职能 在YARN中,ResourceManager负责集群中所有资源的统一管理和分配,它接收来自各个节点(NodeManager)的资源汇报信息,并把这些信息按照一定的策略分配给各个应用程序(实际上是ApplicationMaster)。整体上讲,Resourc 阅读全文
posted @ 2021-07-23 11:28
民宿
阅读(509)
评论(0)
推荐(0)
摘要:
slf4j slf4j仅仅是一个为Java程序提供日志输出的统一接口,并不是一个具体的日志实现方案,就比如JDBC一样,只是一种规则而已,所以单独的slf4j是不能工作的,必须搭配其他具体的日志实现方案,比如log4j或者log4j2,要在系统中使用slf4j,我们需要引入的核心包为:slf4j-a 阅读全文
posted @ 2021-07-23 10:35
民宿
阅读(686)
评论(0)
推荐(0)