07 2012 档案

摘要:Google的BigTable架构在分布式结构化存储方面大名鼎鼎,其中的MergeDump模型在读写之间找到了一个较好的平衡点,很好的解决了web scale数据的读写问题。MergeDump的理论基础是LSM-Tree (Log-Structured Merge-Tree), 原文见:LSM Tree下面先说一下LSM-Tree的基本思想,再记录下读文章的几点感受。LSM思想非常朴素,就是将对数据的更改hold在内存中,达到指定的threadhold后将该批更改批量写入到磁盘,在批量写入的过程中跟已经存在的数据做rolling merge。拿update举个例子:比如有1000万行数据,现在 阅读全文
posted @ 2012-07-11 16:20 藕丝 阅读(179) 评论(0) 推荐(0)
摘要:前面介绍一些怎样用户类制定自己的类,来达到减少中间数据:http://www.cnblogs.com/liqizhou/archive/2012/05/14/2499498.html1.迭代式mapreduce 一些复杂的任务难以用一次mapreduce处理完成,需要多次mapreduce才能完成任务,例如Pagrank,Kmeans算法都需要多次的迭代,关于mapreduce迭代在mahout中运用较多。有兴趣的可以参考一下mahout的源码。 在map/reduce迭代过程中,思想还是比较简单,就像类似for循环一样,前一个mapreduce的输出结果,作为下一个mapreduce的输.. 阅读全文
posted @ 2012-07-11 15:50 藕丝 阅读(332) 评论(0) 推荐(0)
摘要:转自http://www.cnblogs.com/liqizhou/archive/2012/05/17/2504279.html运行HBase时常会遇到个错误,我就有这样的经历。ERROR: org.apache.hadoop.hbase.MasterNotRunningException: Retried 7 times检查日志:org.apache.hadoop.ipc.RPC$VersionMismatch: Protocol org.apache.hadoop.hdfs.protocol.ClientProtocol version mismatch.(client = 42, se 阅读全文
posted @ 2012-07-11 13:11 藕丝 阅读(2160) 评论(0) 推荐(0)