随笔分类 -  big data

Something about big data
Hadoop相关基础知识
摘要:1、Hive 1)Hive是一个构建在Hadoop上的数据仓库框架。它把数据组织成表,通过这种方式为存储在HDFS的数据赋予结构。我们可以通过外壳环境与Hive进行交互,向它发送HiveQL(SQL的一种方言)命令。Hive把HiveQL转换为一系列在Hadoop集群上运行的MR作业。 应用... 阅读全文

posted @ 2015-01-12 00:17 han'er 阅读(537) 评论(0) 推荐(0)

MapReduce初探
摘要:1、概述。 “MapReduce作业(job)是客户端需要执行的一个工作单元。Hadoop将作业分成若干个小任务(task)来执行,其中包括两类任务:map任务和reduce任务。 有两类节点控制着作业执行过程:一个jobtracker及一系列tasktracker。jobtracker通过... 阅读全文

posted @ 2014-11-25 20:54 han'er 阅读(811) 评论(0) 推荐(0)

Storm
摘要:1、一些概念 1)流式计算(参考http://laokaddk.blog.51cto.com/368606/826889) (1)背景:虽然非实时计算几乎都基于MR,但MR很难应付实时性要求较高的应用,因为它是通过调度批量任务来操作静态数据的。 (2)流式计算的典型范式之一是不确定数据速率... 阅读全文

posted @ 2014-06-30 23:21 han'er 阅读(179) 评论(0) 推荐(0)

Spark
摘要:0、参考自http://tech.uc.cn/?p=2116 http://www.csdn.net/article/2013-07-08/2816149 1、Spark是一个高效的分布式计算系统。它基于MapReduce(MR)算法实现分布式计算,但Job的中间输出和结果可以保存在内存,从... 阅读全文

posted @ 2014-06-24 01:28 han'er 阅读(339) 评论(0) 推荐(0)

导航