01 2014 档案
摘要:Impala是cloudera提供的一款高效率的sql查询工具,提供实时的查询效果,官方测试性能比hive快10到100倍,其sql查询比sparkSQL还要更加快速,号称是当前大数据领域最快的查询sql工具。 impala是基于hive并使用内存进行计算,兼顾数据仓库,具有实时,批处理,多并发等优
阅读全文
摘要:首先我们要明确一点,高可用的Hadoop环境之所以被称之为高可用,就是因为它所具备的容灾性更强,对分布式计算的能力更出众,来达到一种高可用的状态,那么就必然会有多个NameNode,ResourceManager的出现。那么我们的高可用的Hadoop环境资源分配如下图: 搭建集群 第一步:我们依然是
阅读全文
摘要:数仓英文名叫做Data Warehouse,简称DW。数据仓库的目的是为了构建面向分析的集成化数据环境,为了企业提供决策支持。 数据仓库是存放数据的,企业的各种数据都往数仓中存,主要目的就是为了分析数据,后续基于这些数据产生可供分析挖掘的数据,或者企业所需要的数据。比如企业每年的年度各维度分析报表等
阅读全文
摘要:Yarn作为Hadoop集群中作为资源调度的角色可谓是意义重大。当然其实Yarn本身在搭建完成之后呢不太需要你去关注它什么,就像一个幕后工作者默默的工作不抛头露面。但是我们还是需要知道它的一些运行机制。我们就拿提交一个MapReduce来举例子。 我们知道yarn集群分为两大角色,ResourceM
阅读全文
摘要:MapReduce分布式计算系统,搭配yarn集群配合实现大数据计算任务。我们这里不讲MapReduce的代码具体实现,而是讲MapReduce的运行机制以及它的一些核心思想。了解了这些其实代码都很简单,只要有一些编程基础的人都会写得出那些代码。无非就是一堆文件的内容进行分解整合变换的过程代码。 M
阅读全文
摘要:Hadoop软件有三大核心,HDFS、Yarn、MapReduce。这里我们来说第一个核心HDFS,HDFS全称 Hadoop Distributed File System 是Apache Hadoop项目的一个子项目,是一个分布式文件系统,Hadoop能够适合存储大数量的数据比如TB和PB,其实
阅读全文
摘要:Hadoop是大数据生态圈的一个泛称,是Apache软件基金会为解决大数据量的文件存储于对大数据的分析计算,成立的一个项目小组叫做Hadoop。Hadoop从狭义来说,就是Hadoop这款大数据分布式分析计算以及存储的系统: HDFS :分布式文件系统 MapReduce : 分布式计算系统 Yar
阅读全文
摘要:Hadoop集群搭建第一步,就是搭建Zookeeper。Zookeeper是什么?为什么第一步就是要搭建Zookeeper? Zookeeper是什么? 官方是这样描述Zookeeper的,“ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实
阅读全文

浙公网安备 33010602011771号