manzi

hive知识点总结

摘要： 1 hive表关联查询，如何解决数据倾斜的问题?倾斜原因：map输出数据按key Hash的分配到reduce中，由于key分布不均匀、业务数据本身的特、建表时考虑不周、等原因造成的reduce 上的数据量差异过大。1)、key分布不均匀;2)、业务数据本身的特性;3)、建表时考虑不周;4)、某些S 阅读全文

posted @ 2019-05-13 13:06 manzi 阅读(391) 评论(0) 推荐(0)

ETL讲解

摘要： ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程，目的是将企业中的分散、零乱、标准不统一的数据整合到一起，为企业的决策提供分析依据。 ETL是BI项目重要的一个环节。通常情况下，在BI项目中ETL会花掉整个项目至少1/3的时间,ETL设计的好坏直接关接到BI项目的成败。 ETL的阅读全文

posted @ 2019-05-12 20:38 manzi 阅读(180) 评论(0) 推荐(0)

DW数据仓库与ODS的区别

摘要：这两天接触到ODS，开始很纳闷，有了DW(Data Warehouse)干嘛还要ODS(Operational Data Store)，于是不查不知道，一查吓一跳，这里面还有这么多道道，这里总结一下，当作学习了。简单说： DW 数据仓库存储是一个面向主题的，反映历史变化数据，用于支撑管理决策。 O 阅读全文

posted @ 2019-05-12 20:27 manzi 阅读(436) 评论(0) 推荐(0)

MapReduce运行原理和过程

摘要：一．Map的原理和运行流程 Map的输入数据源是多种多样的，我们使用hdfs作为数据源。文件在hdfs上是以block(块，Hdfs上的存储单元)为单位进行存储的。 1.分片我们将这一个个block划分成数据分片，即Split（分片，逻辑划分，不包含具体数据，只包含这些数据的位置信息）,那么上图中阅读全文

posted @ 2019-05-09 08:59 manzi 阅读(300) 评论(0) 推荐(0)

MapReduce的基本工作原理

摘要：三个层面上的基本构思 1.如果对付大数据处理：分而治之对相互之间不具有计算依赖关系的大数据，实现并行最自然的办法就是采取分而治之的策略。 2.上升到抽象模型：Mapper与Reduce MPI等并行计算方法缺少高层并行编程模型，程序员需要自行指定存储，计算，分发等任务，为了克服这一缺陷，MapRe 阅读全文

posted @ 2019-05-09 08:57 manzi 阅读(274) 评论(0) 推荐(0)

Java开发：面试大纲总结

摘要：前言：一年之计在于春金三银四已过，2018也已经年过一半多，作为一个开发人员，你是否面上了自己理想的公司，薪资达到心中理想的高度？面试：如果不准备充分的面试，完全是浪费时间，更是对自己的不负责。今天给大家分享下我整理的Java面试大纲，其中大部分都是自己面试过程中的面试题，可以对照这查漏补缺阅读全文

posted @ 2019-05-09 08:13 manzi 阅读(298) 评论(0) 推荐(0)

Hadoop HA 机制学习：HA是怎么运作，QJM又是怎么发挥功效的

摘要：一、Hadoop 系统架构 1.1 Hadoop1.x和Hadoop2.x 架构在介绍HA之前，我们先来看下Hadoop的系统架构，这对于理解HA是至关重要的。Hadoop 1.x之前，其官方架构如图1所示: [ 图1.Hadoop 1.x架构图 ] 从图中可看出，1.x版本之前只有一个Namen 阅读全文

posted @ 2019-05-07 08:35 manzi 阅读(543) 评论(0) 推荐(0)

Hadoop高可用原理及环境搭建

摘要：一、说明本次配置基于上一篇博客《Hadoop完全分布式搭建全过程》做补充，基于完全分布式做高可用搭建。。。。。。二、原理产生背景：Hadoop 1.0中HDFS和MapReduce在高可用、扩展性等方面存在问题 HDFS存在的问题 NameNode单点故障，难以应用于在线场景 HA NameN 阅读全文

posted @ 2019-05-06 18:02 manzi 阅读(528) 评论(0) 推荐(0)

常见排序算法原理及java实现

摘要：最近整理了几种常见排序算法，基于java代码实现，都只是点干货，没有过多原理分析，后期会持续更新阅读全文

posted @ 2019-05-02 21:26 manzi 阅读(257) 评论(0) 推荐(0)

Hadoop完全分布式搭建全过程

摘要：本次操作共4台虚拟机(node211,node212,node213,node214)，node211为NameNode，其余3台为DataNode，SecondaryNamenode为node212 一、角色资源对应分配 NN DN SNN node211: * node212: * * node 阅读全文

posted @ 2019-04-30 19:05 manzi 阅读(314) 评论(0) 推荐(0)

导航

公告