2012 年 7月 21 日随笔档案 - 草原和大树

2012年7月21日

摘要：原文链接：http://outerthought.org/blog/417-ot.html 原文是Bruno Dumon在一年前写的，现在看了还是有很多启发，因此简单的翻译一下，可能有理解不准确的地方，强烈推荐看原文。 ————————————– 毫无理由的分割线 ——————————— HBase是一个类Bigtable系统，按照Google的论文对 Bigtable的定义是“一种稀疏的，分布式的，持久的多为维度的有序Map。这个Map由row key，column key和timestamp做为索引，Map中的值是连续的byte数组”。HBase的多维度，包括table和column f. 阅读全文

posted @ 2012-07-21 16:39 草原和大树阅读(9577) 评论(1) 推荐(0) 编辑

HBase 系统架构

摘要： HBase是Apache Hadoop的数据库，能够对大型数据提供随机、实时的读写访问。HBase的目标是存储并处理大型的数据。HBase是一个开源的，分布式的，多版本的，面向列的存储模型。它存储的是松散型数据。 HBase特性： 1 高可靠性 2 高效性 3 面向列 4 可伸缩 5 可在廉价PC Server搭建大规模结构化存储集群 HBase是Google BigTable的开源实现，其相互对应如下： Google HBase文件存储系统 GFS HDFS海量数据处理 MapReduce Hadoop ... 阅读全文

posted @ 2012-07-21 16:32 草原和大树阅读(7778) 评论(0) 推荐(1) 编辑

IBM 技术文档：Spark, 快速数据分析的又一选择

摘要： IBM 技术文档：Spark, 快速数据分析的又一选择原文出处：http://www.ibm.com/developerworks/library/os-spark/ 摘要：尽管Hadoop在分布式数据分析领域备受瞩目，但还是有其他选择比典型的Hadoop平台更具优势。Spark是一种可伸缩（scalable）的基于内存计算（In-Memory Computing）的数据分析平台，比Hadoop集群存储方法更有性能优势。Spark采用Scala语言实现，提供了单一的数据处理环境。本文讲述Spark的集群计算方法，并与Hadoop进行比较。 Spark与Hadoop一样，是一种开源的集群... 阅读全文

posted @ 2012-07-21 16:26 草原和大树阅读(7434) 评论(0) 推荐(0) 编辑

淘宝Hadoop技术文档博客

摘要： http://rdc.taobao.com/team/jm/ 阅读全文

posted @ 2012-07-21 16:23 草原和大树阅读(569) 评论(0) 推荐(0) 编辑