随笔分类 -  Big Data

hadoop,lucene
摘要:参考来源:1.http://yhz.me/blog/Install-Ganglia-On-CentOS.html2.http://blog.csdn.net/sdlyjzh/article/details/26560585安装基本的php,curl,尽量装吧,相关的都安装好.更新源yum insta... 阅读全文
posted @ 2015-03-13 14:28 wmx3ng 阅读(362) 评论(0) 推荐(0)
摘要:FROM:http://www.importnew.com/5881.html-- 扫描加关注,微信号: importnew --原文链接:Cloudera翻译:ImportNew.com-Royce Wong译文链接:http://www.importnew.com/5881.htmlCloudera Impala包含很多令人惊喜的特性,但是其给人印象最深的应该是支持以多种格式分析HDFS和HBase中数据的能力,并且不需要ETL。此外,用户可以使用多个框架如mapreduce和impala来分析相同的数据。因此,Impala可以和mapreduce一起运行在相同的物理机器上,支持企业的关键 阅读全文
posted @ 2013-08-19 16:50 wmx3ng 阅读(806) 评论(0) 推荐(0)
摘要:FROM:http://blogread.cn/it/article/2455?f=wb大数据量的问题是很多面试笔试中经常出现的问题,比如baidu google 腾讯 这样的一些涉及到海量数据的公司经常会问到。下面的方法是我对海量数据的处理方法进行了一个一般性的总结,当然这些方法可能并不能完全覆盖所有的问题,但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面的一些问题基本直接来源于公司的面试笔试题目,方法不一定最优,如果你有更好的处理方法,欢迎与我讨论。1.Bloom filter适用范围:可以用来实现数据字典,进行数据的判重,或者集合求交集基本原理及要点:对 于原理来说很简单,位数组 阅读全文
posted @ 2013-08-19 16:48 wmx3ng 阅读(297) 评论(0) 推荐(0)
摘要:FROM: http://blogread.cn/it/article/6551?f=wb1. Impala架构 Impala是Cloudera在受到Google的Dremel启发下开发的实时交互SQL大数据查询工具,Impala没有再使用缓慢的 Hive+MapReduce批处理,而是通过使用与商用并行关系数据库中类似的分布式查询引擎(由Query Planner、Query Coordinator和Query Exec Engine三部分组成),可以直接从HDFS或HBase中用SELECT、JOIN和统计函数查询数据,从而大大降低了延迟。其架构如图 1所示,Impala主要由Imp... 阅读全文
posted @ 2013-08-07 16:28 wmx3ng 阅读(337) 评论(0) 推荐(0)