转：全球领先的大数据处理平台Dremel

GFS是一个可扩展的大型数据密集型应用的分布式文件系统，该文件系统可在廉价的硬件上运行，并具有可靠的容错能力，该文件系统可为用户提供极高的计算性能，而同时具备最小的硬件投资和运营成本。

Caffeine将索引放置在由Google开发的分布式数据库BigTable上。作为Google继GFS和MapReduce两项创新后的又一项创新，其在设计用来针对海量数据处理情形下的管理结构型数据方面具有巨大的优势。这种海量数据可以定义为在云计算平台中数千台普通服务器上PB级的数据。

Pregel主要绘制大量网上信息之间关系的“图形数据库”。

专注于大型数据中心规模软件平台的加利福尼亚伯克利分校计算机科学教授Armando Fox表示“如果你事先告诉我Dremel可以做什么，那么我不会相信你可以把它开发出来”。

Dremel是一种分析信息的方式，Dremel可跨越数千台服务器运行，允许“查询”大量的数据，如Web文档集合或数字图书馆，甚至是数以百万计的垃圾信息的数据描述。这类似于使用结构化查询语言分析传统关系数据库，这种方式在过去几十年被广泛使用在世界各地。

区别在于Dremel可以在极快的速度处理网络规模的海量数据。据Google提交的文件显示你可以在几秒的时间处理PB级的数据查询。

Dremel可在大约3秒钟时间里处理1PB的数据查询请求。

Armando Fox表示Dremel是史无前例的，Hadoop作为大数据运动的核心一直致力构建分析海量数据工具的生态圈。但就目前的大数据工具往往存在一个缺陷，与传统的数据分析或商业智能工具相比，Hadoop在数据分析的速度和精度上还无法相比。

Dremel做到了“不可能完成的任务”，Dremel设法将海量的数据分析于对数据的深入挖掘进行有机的结合。Dremel所处理的数据规模的速度实在令人印象深刻，你可以舒适的探索数据。在Dremel出现之前还没有类似的系统可以做的像Dremel这样出色。

Mike Olson表示尽管Hadoop取得的成功不容置疑，但构建Hadoop生态圈的公司和企业显然慢了，而同样的情况也出现在Dremel上，Google在2010年公布了Dremel的相关文档，但这个平台还没有被第三方企业充分利用起来，目前以色列的工程团队正在建设被称为OpenDremel的克隆平台。

换句话说即使你不是Google的工程师你同样可以使用Dremel。Google现在提供的BigQuery的服务就是基于Dremel。用户可通过在线API来使用这个平台。用户可以把数据上传到Google，并在Google基础设施中运行用户的查询服务。而这只是Google越来越多云服务的一部分。

全球很多技术都落后于Google，而Google自身的技术也正在影响全球。

posted on 2012-08-23 14:56 Republist 阅读(508) 评论(0) 收藏举报

刷新页面返回顶部

Republican

公告