随笔分类 -  大数据

摘要:Mapreduce为了确保每个reducer的输入都按键排序。系统执行排序的过程 将map的输出作为输入传给reducer 称为shuffle。学习shuffle是如何工作的有助于我们理解mapreduce工作机制。shuffle属于hadoop不断被优化和改进的代码库的一部分。从许多方面看,shu 阅读全文
posted @ 2016-04-18 11:16 哼哼哈哈二将 阅读(834) 评论(0) 推荐(0)
摘要:在Hadoop的mapper类中,有4个主要的函数,分别是:setup,clearup,map,run。代码如下: protected void setup(Context context) throws IOException, InterruptedException { // NOTHING 阅读全文
posted @ 2016-04-18 11:03 哼哼哈哈二将 阅读(428) 评论(0) 推荐(0)
摘要:Hadoop简介Hadoop就是一个实现了Google云计算系统的开源系统,包括并行计算模型Map/Reduce,分布式文件系统HDFS,以及分布式数据库Hbase,同时Hadoop的相关项目也很丰富,包括ZooKeeper,Pig,Chukwa,Hive,Hbase,Mahout,flume等.这 阅读全文
posted @ 2016-04-18 10:54 哼哼哈哈二将 阅读(401) 评论(0) 推荐(0)
摘要:大数据量存储:分布式存储 日志处理: Hadoop擅长这个 海量计算: 并行计算 ETL:数据抽取到oracle、mysql、DB2、mongdb及主流数据库 使用HBase做数据分析: 用扩展性应对大量的写操作—Facebook构建了基于HBase的实时数据分析系统 机器学习: 比如Apache 阅读全文
posted @ 2016-04-18 10:31 哼哼哈哈二将 阅读(3475) 评论(0) 推荐(0)