2014 年 1月随笔档案 - 笑城戈

大数据之Impala

摘要：Impala是cloudera提供的一款高效率的sql查询工具，提供实时的查询效果，官方测试性能比hive快10到100倍，其sql查询比sparkSQL还要更加快速，号称是当前大数据领域最快的查询sql工具。 impala是基于hive并使用内存进行计算，兼顾数据仓库，具有实时，批处理，多并发等优阅读全文

posted @ 2014-01-30 17:28 笑城戈阅读(416) 评论(0) 推荐(0)

大数据之高可用Hadoop集群环境搭建

摘要：首先我们要明确一点，高可用的Hadoop环境之所以被称之为高可用，就是因为它所具备的容灾性更强，对分布式计算的能力更出众，来达到一种高可用的状态，那么就必然会有多个NameNode，ResourceManager的出现。那么我们的高可用的Hadoop环境资源分配如下图：搭建集群第一步：我们依然是阅读全文

posted @ 2014-01-25 13:41 笑城戈阅读(307) 评论(0) 推荐(0)

大数据之数仓Hive

摘要：数仓英文名叫做Data Warehouse，简称DW。数据仓库的目的是为了构建面向分析的集成化数据环境，为了企业提供决策支持。数据仓库是存放数据的，企业的各种数据都往数仓中存，主要目的就是为了分析数据，后续基于这些数据产生可供分析挖掘的数据，或者企业所需要的数据。比如企业每年的年度各维度分析报表等阅读全文

posted @ 2014-01-20 00:11 笑城戈阅读(882) 评论(0) 推荐(0)

大数据之Yarn集群运行机制

摘要：Yarn作为Hadoop集群中作为资源调度的角色可谓是意义重大。当然其实Yarn本身在搭建完成之后呢不太需要你去关注它什么，就像一个幕后工作者默默的工作不抛头露面。但是我们还是需要知道它的一些运行机制。我们就拿提交一个MapReduce来举例子。我们知道yarn集群分为两大角色，ResourceM 阅读全文

posted @ 2014-01-16 17:13 笑城戈阅读(325) 评论(0) 推荐(1)

大数据之MapReduce工作机制

摘要：MapReduce分布式计算系统，搭配yarn集群配合实现大数据计算任务。我们这里不讲MapReduce的代码具体实现，而是讲MapReduce的运行机制以及它的一些核心思想。了解了这些其实代码都很简单，只要有一些编程基础的人都会写得出那些代码。无非就是一堆文件的内容进行分解整合变换的过程代码。 M 阅读全文

posted @ 2014-01-16 16:19 笑城戈阅读(165) 评论(0) 推荐(1)

大数据之Hadoop核心之HDFS

摘要：Hadoop软件有三大核心，HDFS、Yarn、MapReduce。这里我们来说第一个核心HDFS，HDFS全称 Hadoop Distributed File System 是Apache Hadoop项目的一个子项目，是一个分布式文件系统，Hadoop能够适合存储大数量的数据比如TB和PB，其实阅读全文

posted @ 2014-01-15 20:47 笑城戈阅读(245) 评论(0) 推荐(0)

大数据之Hadoop集群搭建

摘要：Hadoop是大数据生态圈的一个泛称，是Apache软件基金会为解决大数据量的文件存储于对大数据的分析计算，成立的一个项目小组叫做Hadoop。Hadoop从狭义来说，就是Hadoop这款大数据分布式分析计算以及存储的系统： HDFS ：分布式文件系统 MapReduce : 分布式计算系统 Yar 阅读全文

posted @ 2014-01-05 16:18 笑城戈阅读(157) 评论(0) 推荐(0)

大数据之Zookeeper集群搭建

摘要：Hadoop集群搭建第一步，就是搭建Zookeeper。Zookeeper是什么？为什么第一步就是要搭建Zookeeper？ Zookeeper是什么？官方是这样描述Zookeeper的，“ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，是Google的Chubby一个开源的实阅读全文

posted @ 2014-01-03 13:08 笑城戈阅读(227) 评论(0) 推荐(0)

笑辰戈

01 2014 档案

公告