big data - 随笔分类 - han'er

Hadoop相关基础知识

摘要：1、Hive 1）Hive是一个构建在Hadoop上的数据仓库框架。它把数据组织成表，通过这种方式为存储在HDFS的数据赋予结构。我们可以通过外壳环境与Hive进行交互，向它发送HiveQL（SQL的一种方言）命令。Hive把HiveQL转换为一系列在Hadoop集群上运行的MR作业。应用... 阅读全文

posted @ 2015-01-12 00:17 han'er 阅读(538) 评论(0) 推荐(0)

MapReduce初探

摘要：1、概述。 “MapReduce作业（job）是客户端需要执行的一个工作单元。Hadoop将作业分成若干个小任务（task）来执行，其中包括两类任务：map任务和reduce任务。有两类节点控制着作业执行过程：一个jobtracker及一系列tasktracker。jobtracker通过... 阅读全文

posted @ 2014-11-25 20:54 han'er 阅读(812) 评论(0) 推荐(0)

Storm

摘要：1、一些概念 1）流式计算（参考http://laokaddk.blog.51cto.com/368606/826889）（1）背景：虽然非实时计算几乎都基于MR，但MR很难应付实时性要求较高的应用，因为它是通过调度批量任务来操作静态数据的。（2）流式计算的典型范式之一是不确定数据速率... 阅读全文

posted @ 2014-06-30 23:21 han'er 阅读(180) 评论(0) 推荐(0)

Spark

摘要：0、参考自http://tech.uc.cn/?p=2116 http://www.csdn.net/article/2013-07-08/2816149 1、Spark是一个高效的分布式计算系统。它基于MapReduce（MR）算法实现分布式计算，但Job的中间输出和结果可以保存在内存，从... 阅读全文

posted @ 2014-06-24 01:28 han'er 阅读(341) 评论(0) 推荐(0)

随笔分类 - big data

Hadoop相关基础知识

MapReduce初探

Storm

Spark

导航

公告