摘要: Apache Tajo是一个基于hadoop的关系型且分布式的数据库仓库系统,Tajo设计之初就是通过先进的数据库技术做到能够低延迟,可扩展,即时查询,可聚合的数据库仓库系统,以弥补hadoop等目前在实时,关系事务方面的短板。同时Tajo还支持SQL标准,所以你可以通过SQL来操作它。HDFS为Tajo的主要存储层,并且有自己的查询引擎(代码结构看下来貌似很多代码都是自己写的)所以可以直接控制各种分布式执行(如查询)和数据流。如此Tajo有许多查询控制策略,以及对查询可以做很多优化。功能: 1.快速且低延迟的查询,支持各种SQL操作,如条件查询,GROUP BY,SORT,JOIN等 ... 阅读全文
posted @ 2013-06-06 16:01 爱开卷360 阅读(531) 评论(0) 推荐(0) 编辑
摘要: 摘要:2012并非世界末日,而是云计算的春天。Google、AWS、Facebook、微软、Cloudrea,甚至已经渐渐落寞的Yahoo!都在通过云计算发力,国内如阿里、百度、腾讯、新浪这些互联网的排头兵正在全力赶上,甚至有机会重新排定座序。CSDN将从技术度角度对过去一年中云计算发生的重点事件做出点评。 阅读全文
posted @ 2013-06-06 15:47 爱开卷360 阅读(336) 评论(0) 推荐(0) 编辑
摘要: 近些年来Hadoop生态系统发展迅猛,它本身包含的软件越来越多,同时带动了周边系统的繁荣发展。尤其是在分布式计算这一领域,系统繁多纷杂,时不时冒出一个系统,号称自己比MapReduce或者Hive高效几十倍,几百倍。有一些无知的人,总是跟着瞎起哄,说Impala将取代Hive,Spark将取代Hadoop MapReduce等。本文则从问题域触发,解释说明Hadoop中每个系统独特的作用/魅力以及它们的不可替代性。 Hadoop作为一个生态系统,每个系统只解决某一个特定的问题域(甚至可能很窄),这也是Hadoop的魅力所在:不搞统一型的一个全能系统,而是小而精的多个小系统。本文重点讨论分... 阅读全文
posted @ 2013-06-06 15:33 爱开卷360 阅读(360) 评论(0) 推荐(0) 编辑