摘要: Spark概述 什么是Spark (官网:http://spark.apache.org) Spark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目。目前,Spa 阅读全文
posted @ 2018-07-19 14:45 jiFeng丶 阅读(700) 评论(0) 推荐(0) 编辑
摘要: 项目概述 需求 目前大多数的分布式架构底层通信都是通过RPC实现的,RPC框架非常多,比如前我们学过的Hadoop项目的RPC通信框架,但是Hadoop在设计之初就是为了运行长达数小时的批量而设计的,在某些极端的情况下,任务提交的延迟很高,所以Hadoop的RPC显得有些笨重。 Spark 的RPC 阅读全文
posted @ 2018-07-18 00:56 jiFeng丶 阅读(2029) 评论(1) 推荐(0) 编辑
摘要: 高阶函数 概念 Scala混合了面向对象和函数式的特性,我们通常将可以作为参数传递到方法中的表达式叫做函数。在函数式编程语言中,函数是“头等公民”,高阶函数包含:作为值的函数、匿名函数、闭包、柯里化等等。 作为值的函数 可以像任何其他数据类型一样被传递和操作的函数,每当你想要给算法传入具体动作时这个 阅读全文
posted @ 2018-07-18 00:15 jiFeng丶 阅读(1451) 评论(1) 推荐(2) 编辑
摘要: Scala概述 什么是Scala Scala是一种多范式的编程语言,其设计的初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行于Java平台(Java虚拟机),并兼容现有的Java程序。http://www.scala-lang.org 为什么要学Scala 1、优雅:这是框架设计师第一 阅读全文
posted @ 2018-07-16 21:31 jiFeng丶 阅读(863) 评论(2) 推荐(2) 编辑
摘要: 资源相关参数 //以下参数是在用户自己的 MapReduce 应用程序中配置就可以生效 (1) mapreduce.map.memory.mb: 一个 Map Task 可使用的内存上限(单位:MB),默认为 1024。如果 Map Task 实际使用的资源量超过该值,则会被强制杀死。 (2) ma 阅读全文
posted @ 2018-07-13 22:58 jiFeng丶 阅读(388) 评论(0) 推荐(0) 编辑
摘要: 安全模式概述 安全模式是 HDFS 所处的一种特殊状态,在这种状态下,文件系统只接受读数据请求,而不接受删除、修改等变更请求,是一种保护机制,用于保证集群中的数据块的安全性。 在NameNode主节点启动时,HDFS首先进入安全模式,集群会开始检查数据块的完整性。DataNode 在启动的时候会向 阅读全文
posted @ 2018-07-13 22:50 jiFeng丶 阅读(1265) 评论(0) 推荐(0) 编辑
摘要: 元数据管理概述 HDFS元数据,按类型分,主要包括以下几个部分: 1、文件、目录自身的属性信息,例如文件名,目录名,修改信息等。 2、文件记录的信息的存储相关的信息,例如存储块信息,分块情况,副本个数等。 3、记录 HDFS 的 Datanode 的信息,用于 DataNode 的管理。 按形式分为 阅读全文
posted @ 2018-07-13 22:41 jiFeng丶 阅读(7376) 评论(0) 推荐(1) 编辑
摘要: 背景概述 单 NameNode 的架构使得 HDFS 在集群扩展性和性能上都有潜在的问题,当集群大到一定程度后,NameNode 进程使用的内存可能会达到上百 G,NameNode 成为了性能的瓶颈。因 而提出了 namenode 水平扩展方案-- Federation。 Federation 中文 阅读全文
posted @ 2018-07-13 22:19 jiFeng丶 阅读(5481) 评论(0) 推荐(1) 编辑
摘要: HA 集群搭建的难度主要在于配置文件的编写, 心细,心细,心细! ha模式下,secondary namenode节点不存在... 集群部署节点角色的规划(7节点) server01 namenode zkfcserver02 namenode zkfcserver03 resourcemanage 阅读全文
posted @ 2018-07-13 21:21 jiFeng丶 阅读(479) 评论(1) 推荐(1) 编辑
摘要: HDFS HA Namenode HA 详解 hadoop2.x 之后,Clouera 提出了 QJM/Qurom Journal Manager,这是一个基于 Paxos 算法(分布式一致性算法)实现的 HDFS HA 方案,它给出了一种较好的解决思路和方案,QJM 主要优势如下: 不需要配置额外 阅读全文
posted @ 2018-07-13 20:46 jiFeng丶 阅读(484) 评论(0) 推荐(0) 编辑