大数据 - 随笔分类(第3页) - 哼哼哈哈二将

Mapreduce shuffle和排序

摘要：Mapreduce为了确保每个reducer的输入都按键排序。系统执行排序的过程将map的输出作为输入传给reducer 称为shuffle。学习shuffle是如何工作的有助于我们理解mapreduce工作机制。shuffle属于hadoop不断被优化和改进的代码库的一部分。从许多方面看，shu 阅读全文

posted @ 2016-04-18 11:16 哼哼哈哈二将阅读(834) 评论(0) 推荐(0)

map/reduce类简单介绍

摘要：在Hadoop的mapper类中，有4个主要的函数，分别是：setup，clearup，map，run。代码如下： protected void setup(Context context) throws IOException, InterruptedException { // NOTHING 阅读全文

posted @ 2016-04-18 11:03 哼哼哈哈二将阅读(428) 评论(0) 推荐(0)

生动有趣地讲解Map/Reduce基本原理

摘要：Hadoop简介Hadoop就是一个实现了Google云计算系统的开源系统，包括并行计算模型Map/Reduce，分布式文件系统HDFS，以及分布式数据库Hbase，同时Hadoop的相关项目也很丰富，包括ZooKeeper，Pig，Chukwa，Hive，Hbase，Mahout，flume等.这阅读全文

posted @ 2016-04-18 10:54 哼哼哈哈二将阅读(401) 评论(0) 推荐(0)

hadoop使用场景

摘要：大数据量存储：分布式存储日志处理: Hadoop擅长这个海量计算: 并行计算 ETL:数据抽取到oracle、mysql、DB2、mongdb及主流数据库使用HBase做数据分析: 用扩展性应对大量的写操作—Facebook构建了基于HBase的实时数据分析系统机器学习: 比如Apache 阅读全文

posted @ 2016-04-18 10:31 哼哼哈哈二将阅读(3475) 评论(0) 推荐(0)

哼哼哈哈二将

随笔分类 - 大数据

公告