摘要: 相比Java的MapReduce api,Pig为大型数据集的处理提供了更高层次的抽象,与MapReduce相比,Pig提供了更丰富的数据结构,一般都是多值和嵌套的数据结构。Pig还提供了一套更强大的数据变换操作,包括在MapReduce中被忽视的连接Join操作。Hadoop版本:2.2.0Pig... 阅读全文
posted @ 2014-06-04 17:26 yanghuahui 阅读(25524) 评论(2) 推荐(1)
摘要: Riak是以 Erlang 编写的一个高度可扩展的分布式数据存储,Riak的实现是基于Amazon的Dynamo论文,Riak的设计目标之一就是高可用。Riak支持多节点构建的系统,每次读写请求不需要集群内所有节点参与也能胜任。像这样的系统,我们需要版本机制来确定哪个值是最新的。所以就引入了向量时钟... 阅读全文
posted @ 2014-06-04 11:19 yanghuahui 阅读(6230) 评论(0) 推荐(5)