随笔分类 -  大数据架构

摘要:为什么之前的MapReduce系统比较慢 常理上有几个理由使得MapReduce框架慢于MPP数据库: 容错所引入的昂贵数据实体化(data materialization)开销。 孱弱的数据布局(data layout),比如缺少索引。 执行策略的开销[1 2]。 而我们对于Hive的实验也进一步证明了上述的理由,但是通过对Hive“工程上”的改进,如改变存储引擎(内存存储引擎)、改善执行... 阅读全文
posted @ 2017-01-17 11:48 一人浅醉- 阅读(3121) 评论(0) 推荐(0)
摘要:问题导读: 1.如何在讲mapreduce函数中的字符串等信息,输出到eclipse控制台? 2.除了使用下文方法,还有其它方法输出到控制台? 3.map中,系统默认接受的value值是什么? 4.reduce输出不是自己想要的结果,可能的原因是什么? mapreduce不是很好理解,为什么? 因为 阅读全文
posted @ 2015-08-27 17:46 一人浅醉- 阅读(1182) 评论(0) 推荐(0)
摘要:个人观点:大数据我们都知道hadoop,但并不都是hadoop.我们该如何构建大数据库项目。对于离线处理,hadoop还是比较适合的,但是对于实 时性比较强的,数据量比较大的,我们可以采用Storm,那么Storm和什么技术搭配,才能够做一个适合自己的项目。下面给大家可以参考。 可以带着下面问题来阅 阅读全文
posted @ 2015-08-27 17:37 一人浅醉- 阅读(894) 评论(1) 推荐(0)