Big Data - 随笔分类 - wmx3ng

CentOS6.5安装ganglia3.6

摘要：参考来源:1.http://yhz.me/blog/Install-Ganglia-On-CentOS.html2.http://blog.csdn.net/sdlyjzh/article/details/26560585安装基本的php,curl,尽量装吧,相关的都安装好.更新源yum insta... 阅读全文

posted @ 2015-03-13 14:28 wmx3ng 阅读(362) 评论(0) 推荐(0)

为集群配置Impala和Mapreduce

摘要：FROM:http://www.importnew.com/5881.html-- 扫描加关注，微信号: importnew --原文链接：Cloudera翻译：ImportNew.com-Royce Wong译文链接：http://www.importnew.com/5881.htmlCloudera Impala包含很多令人惊喜的特性，但是其给人印象最深的应该是支持以多种格式分析HDFS和HBase中数据的能力，并且不需要ETL。此外，用户可以使用多个框架如mapreduce和impala来分析相同的数据。因此，Impala可以和mapreduce一起运行在相同的物理机器上，支持企业的关键阅读全文

posted @ 2013-08-19 16:50 wmx3ng 阅读(806) 评论(0) 推荐(0)

海量数据面试题举例

摘要：FROM:http://blogread.cn/it/article/2455?f=wb大数据量的问题是很多面试笔试中经常出现的问题，比如baidu google 腾讯这样的一些涉及到海量数据的公司经常会问到。下面的方法是我对海量数据的处理方法进行了一个一般性的总结，当然这些方法可能并不能完全覆盖所有的问题，但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面的一些问题基本直接来源于公司的面试笔试题目，方法不一定最优，如果你有更好的处理方法，欢迎与我讨论。1.Bloom filter适用范围：可以用来实现数据字典，进行数据的判重，或者集合求交集基本原理及要点：对于原理来说很简单，位数组阅读全文

posted @ 2013-08-19 16:48 wmx3ng 阅读(297) 评论(0) 推荐(0)

Impala与Hive的比较

摘要：FROM: http://blogread.cn/it/article/6551?f=wb1. Impala架构 Impala是Cloudera在受到Google的Dremel启发下开发的实时交互SQL大数据查询工具，Impala没有再使用缓慢的 Hive+MapReduce批处理，而是通过使用与商用并行关系数据库中类似的分布式查询引擎(由Query Planner、Query Coordinator和Query Exec Engine三部分组成)，可以直接从HDFS或HBase中用SELECT、JOIN和统计函数查询数据，从而大大降低了延迟。其架构如图 1所示，Impala主要由Imp... 阅读全文

posted @ 2013-08-07 16:28 wmx3ng 阅读(337) 评论(0) 推荐(0)

wmx3ng

随笔分类 - Big Data

公告