随笔分类 -  Hadoop

摘要:问题:如何解决海量数据的运算? 先从一张图简单的看下mapreduce的处理过程 MapReduce概述: MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题。MR由两个阶段组成:Map和Reduce,用户只需要实现map()和reduce()两个函 阅读全文
posted @ 2017-09-18 19:39 小猴子爱吃桃 阅读(359) 评论(0) 推荐(0)
摘要:Hive: hive不支持更改数据的操作,Hive基于数据仓库,提供静态数据的动态查询。其使用类SQL语言,底层经过编译转为MapReduce程序,在Hadoop上运行,数据存储在HDFS上。 HDFS: HDFS是GFS的一种实现,他的完整名字是分布式文件系统,类似于FAT32,NTFS,是一种文 阅读全文
posted @ 2017-07-29 13:52 小猴子爱吃桃 阅读(373) 评论(0) 推荐(0)