2012 年 7月随笔档案 - 藕丝

LSM-Tree（BigTable的理论模型）（转）

摘要：Google的BigTable架构在分布式结构化存储方面大名鼎鼎，其中的MergeDump模型在读写之间找到了一个较好的平衡点，很好的解决了web scale数据的读写问题。MergeDump的理论基础是LSM-Tree (Log-Structured Merge-Tree), 原文见：LSM Tree下面先说一下LSM-Tree的基本思想，再记录下读文章的几点感受。LSM思想非常朴素，就是将对数据的更改hold在内存中，达到指定的threadhold后将该批更改批量写入到磁盘，在批量写入的过程中跟已经存在的数据做rolling merge。拿update举个例子：比如有1000万行数据，现在阅读全文

posted @ 2012-07-11 16:20 藕丝阅读(180) 评论(0) 推荐(0)

MapReduce，组合式，迭代式，链式（转）

摘要：前面介绍一些怎样用户类制定自己的类，来达到减少中间数据：http://www.cnblogs.com/liqizhou/archive/2012/05/14/2499498.html1.迭代式mapreduce 一些复杂的任务难以用一次mapreduce处理完成，需要多次mapreduce才能完成任务，例如Pagrank，Kmeans算法都需要多次的迭代，关于mapreduce迭代在mahout中运用较多。有兴趣的可以参考一下mahout的源码。在map/reduce迭代过程中，思想还是比较简单，就像类似for循环一样，前一个mapreduce的输出结果，作为下一个mapreduce的输.. 阅读全文

posted @ 2012-07-11 15:50 藕丝阅读(332) 评论(0) 推荐(0)

MapReduce操作HBase (转)

摘要：转自http://www.cnblogs.com/liqizhou/archive/2012/05/17/2504279.html运行HBase时常会遇到个错误，我就有这样的经历。ERROR: org.apache.hadoop.hbase.MasterNotRunningException: Retried 7 times检查日志：org.apache.hadoop.ipc.RPC$VersionMismatch: Protocol org.apache.hadoop.hdfs.protocol.ClientProtocol version mismatch.(client = 42, se 阅读全文

posted @ 2012-07-11 13:11 藕丝阅读(2160) 评论(0) 推荐(0)

07 2012 档案

公告