manzi

导航

2019年5月13日 #

hive知识点总结

摘要: 1 hive表关联查询,如何解决数据倾斜的问题?倾斜原因:map输出数据按key Hash的分配到reduce中,由于key分布不均匀、业务数据本身的特、建表时考虑不周、等原因造成的reduce 上的数据量差异过大。1)、key分布不均匀;2)、业务数据本身的特性;3)、建表时考虑不周;4)、某些S 阅读全文

posted @ 2019-05-13 13:06 manzi 阅读(336) 评论(0) 推荐(0) 编辑

2019年5月12日 #

ETL讲解

摘要: ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。 ETL是BI项目重要的一个环节。 通常情况下,在BI项目中ETL会花掉整个项目至少1/3的时间,ETL设计的好坏直接关接到BI项目的成败。 ETL的 阅读全文

posted @ 2019-05-12 20:38 manzi 阅读(165) 评论(0) 推荐(0) 编辑

DW数据仓库与ODS的区别

摘要: 这两天接触到ODS,开始很纳闷,有了DW(Data Warehouse)干嘛还要ODS(Operational Data Store),于是不查不知道,一查吓一跳,这里面还有这么多道道,这里总结一下,当作学习了。 简单说: DW 数据仓库存储是一个面向主题的,反映历史变化数据,用于支撑管理决策。 O 阅读全文

posted @ 2019-05-12 20:27 manzi 阅读(392) 评论(0) 推荐(0) 编辑

2019年5月9日 #

MapReduce运行原理和过程

摘要: 一.Map的原理和运行流程 Map的输入数据源是多种多样的,我们使用hdfs作为数据源。文件在hdfs上是以block(块,Hdfs上的存储单元)为单位进行存储的。 1.分片 我们将这一个个block划分成数据分片,即Split(分片,逻辑划分,不包含具体数据,只包含这些数据的位置信息),那么上图中 阅读全文

posted @ 2019-05-09 08:59 manzi 阅读(269) 评论(0) 推荐(0) 编辑

MapReduce的基本工作原理

摘要: 三个层面上的基本构思 1.如果对付大数据处理:分而治之 对相互之间不具有计算依赖关系的大数据,实现并行最自然的办法就是采取分而治之的策略。 2.上升到抽象模型:Mapper与Reduce MPI等并行计算方法缺少高层并行编程模型,程序员需要自行指定存储,计算,分发等任务,为了克服这一缺陷,MapRe 阅读全文

posted @ 2019-05-09 08:57 manzi 阅读(235) 评论(0) 推荐(0) 编辑

Java开发:面试大纲总结

摘要: 前言: 一年之计在于春 金三银四已过,2018也已经年过一半多,作为一个开发人员,你是否面上了自己理想的公司,薪资达到心中理想的高度? 面试:如果不准备充分的面试,完全是浪费时间,更是对自己的不负责。 今天给大家分享下我整理的Java面试大纲,其中大部分都是自己面试过程中的面试题,可以对照这查漏补缺 阅读全文

posted @ 2019-05-09 08:13 manzi 阅读(214) 评论(0) 推荐(0) 编辑

2019年5月7日 #

Hadoop HA 机制学习:HA是怎么运作,QJM又是怎么发挥功效的

摘要: 一、Hadoop 系统架构 1.1 Hadoop1.x和Hadoop2.x 架构 在介绍HA之前,我们先来看下Hadoop的系统架构,这对于理解HA是至关重要的。Hadoop 1.x之前,其官方架构如图1所示: [ 图1.Hadoop 1.x架构图 ] 从图中可看出,1.x版本之前只有一个Namen 阅读全文

posted @ 2019-05-07 08:35 manzi 阅读(492) 评论(0) 推荐(0) 编辑

2019年5月6日 #

Hadoop高可用原理及环境搭建

摘要: 一、说明 本次配置基于上一篇博客《Hadoop完全分布式搭建全过程》做补充,基于完全分布式做高可用搭建。。。。。。 二、原理 产生背景:Hadoop 1.0中HDFS和MapReduce在高可用、扩展性等方面存在问题 HDFS存在的问题 NameNode单点故障,难以应用于在线场景 HA NameN 阅读全文

posted @ 2019-05-06 18:02 manzi 阅读(477) 评论(0) 推荐(0) 编辑

2019年5月2日 #

常见排序算法原理及java实现

摘要: 最近整理了几种常见排序算法,基于java代码实现,都只是点干货,没有过多原理分析,后期会持续更新 阅读全文

posted @ 2019-05-02 21:26 manzi 阅读(237) 评论(0) 推荐(0) 编辑

2019年4月30日 #

Hadoop完全分布式搭建全过程

摘要: 本次操作共4台虚拟机(node211,node212,node213,node214),node211为NameNode,其余3台为DataNode,SecondaryNamenode为node212 一、角色资源对应分配 NN DN SNN node211: * node212: * * node 阅读全文

posted @ 2019-04-30 19:05 manzi 阅读(280) 评论(0) 推荐(0) 编辑