2012年7月21日
摘要: 原文链接:http://outerthought.org/blog/417-ot.html 原文是Bruno Dumon在一年前写的,现在看了还是有很多启发,因此简单的翻译一下,可能有理解不准确的地方,强烈推荐看原文。 ————————————– 毫无理由的分割线 ——————————— HBase是一个类Bigtable系统,按照Google的论文对 Bigtable的定义是“一种稀疏的,分布式的,持久的多为维度的有序Map。这个Map由row key,column key和timestamp做为索引,Map中的值是连续的byte数组”。HBase的多维度,包括table和column f. 阅读全文
posted @ 2012-07-21 16:39 草原和大树 阅读(9577) 评论(1) 推荐(0) 编辑
摘要: HBase是Apache Hadoop的数据库,能够对大型数据提供随机、实时的读写访问。HBase的目标是存储并处理大型的数据。HBase是一个开源的,分布式的,多版本的,面向列的存储模型。它存储的是松散型数据。 HBase特性: 1 高可靠性 2 高效性 3 面向列 4 可伸缩 5 可在廉价PC Server搭建大规模结构化存储集群 HBase是Google BigTable的开源实现,其相互对应如下: Google HBase文件存储系统 GFS HDFS海量数据处理 MapReduce Hadoop ... 阅读全文
posted @ 2012-07-21 16:32 草原和大树 阅读(7778) 评论(0) 推荐(1) 编辑
摘要: IBM 技术文档:Spark, 快速数据分析的又一选择 原文出处:http://www.ibm.com/developerworks/library/os-spark/ 摘要:尽管Hadoop在分布式数据分析领域备受瞩目,但还是有其他选择比典型的Hadoop平台更具优势。Spark是一种可伸缩(scalable)的基于内存计算(In-Memory Computing)的数据分析平台,比Hadoop集群存储方法更有性能优势。Spark采用Scala语言实现,提供了单一的数据处理环境。本文讲述Spark的集群计算方法,并与Hadoop进行比较。 Spark与Hadoop一样,是一种开源的集群... 阅读全文
posted @ 2012-07-21 16:26 草原和大树 阅读(7434) 评论(0) 推荐(0) 编辑
摘要: http://rdc.taobao.com/team/jm/ 阅读全文
posted @ 2012-07-21 16:23 草原和大树 阅读(569) 评论(0) 推荐(0) 编辑