随笔分类 -  Hadoop

MapReduce编程模型
摘要:MapReduce编程模型 一种分布式计算模型框架,解决海量数据的计算问题 MapReduce将整个并行计算过程抽象到两个函数 map(映射):对一些独立元素组成的列表的每一个元素进行指定的操作,可以高度并行 reduce:对一个列表的元素进行合并 一个简单的MapReduce程序只需要指定map( 阅读全文

posted @ 2017-07-30 18:16 dawangandy 阅读(272) 评论(0) 推荐(0)

HDFS 实际应用场景合并小文件
摘要:合并小文件,存放到HDFS上, 采取在向HDFS复制上传的过程中将小文件进行合并,效果会更好 阅读全文

posted @ 2017-07-30 12:48 dawangandy 阅读(1384) 评论(0) 推荐(0)

Pig Command
摘要:A = load '$INPUT' using PigStorage(',') AS (id:int, country:chararray, hdi:float, lifeex:int, mysch:int, eysch:int, gni:int); B = FILTER A BY gni > 2000; C = ORDER B BY gni; STORE C into '$OUTPUT'... 阅读全文

posted @ 2017-07-27 11:23 dawangandy 阅读(114) 评论(0) 推荐(0)

导航