2014年10月8日

Impala:新一代开源大数据分析引擎

摘要: impala架构分析 Impala是Cloudera公司主导开发的新型查询系统,SQL语义查询在Hadoop的HDFS和HBase中的PB级大数据。Hive系统虽然也提供了SQL语义,但底层执行的是MapReduce引擎,仍然是一个批处理过程,不能满足查询的交互性。相比之下,Impala的最... 阅读全文

posted @ 2014-10-08 17:22 代码王子 阅读(298) 评论(0) 推荐(0)

Google Dremel 原理 - 如何能3秒分析1PB

摘要: 摘自:http://www.yankay.com/google-dremel-rationale/ 简介 Dremel 是Google 的“交互式”数据分析系统。可以组建成规模上千的集群,处理PB级别的数据。MapReduce处理一个数据,需要分钟级的时间。作为MapReduce的发起人,G... 阅读全文

posted @ 2014-10-08 16:42 代码王子 阅读(284) 评论(0) 推荐(0)

一个大数据方案:基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎

摘要: 网络爬虫架构在Nutch+Hadoop之上,是一个典型的分布式离线批量处理架构,有非常优异的吞吐量和抓取性能并提供了大量的配置定制选项。由于网络爬虫只负责网络资源的抓取,所以,需要一个分布式搜索引擎,用来对网络爬虫抓取到的网络资源进行实时的索引和搜索。 搜 索引擎架构在ElasticSear... 阅读全文

posted @ 2014-10-08 11:22 代码王子 阅读(403) 评论(0) 推荐(0)

导航