随笔分类 - 大数据系列
摘要:转自:http://www.cnblogs.com/sharpxiajun/archive/2013/06/02/3113923.htmlZookeeper是hadoop的一个子项目,虽然源自hadoop,但是我发现zookeeper脱离hadoop的范畴开发分布式框架的运用越来越多。今天我想谈谈z...
阅读全文
摘要:转自:http://www.cnblogs.com/ggjucheng/archive/2012/04/23/2465820.html一、从Map到ReduceMapReduce其实是分治算法的一种实现,其处理过程亦和用管道命令来处理十分相似,一些简单的文本字符的处理甚至也可以使用Unix的管道命令...
阅读全文
摘要:转自:http://www.aboutyun.com/thread-15494-1-2.html问题导读1、HDFS框架组成是什么?2、HDFS文件的读写过程是什么?3、MapReduce框架组成是什么?4、MapReduce工作原理是什么?5、什么是Shuffle阶段和Sort阶段?还记得2.5年...
阅读全文
摘要:转自:http://www.cnblogs.com/forfuture1978/archive/2010/03/14/1685351.html一、HDFS的基本概念1.1、数据块(block)HDFS(Hadoop Distributed File System)默认的最基本的存储单位是64M的数据...
阅读全文
摘要:转自:http://my.oschina.net/BreathL/blog/75112?fromerr=pQGH9u7v原创博客,转载请注明:http://my.oschina.net/BreathL/blog/75112 最近做了一个项目,要求找出二度人脉的一些关系,就好似新浪微博的“你可能感...
阅读全文
摘要:转自:http://www.cnblogs.com/forfuture1978/archive/2010/11/19/1882279.html转者注:本来想在Hadoop学习总结系列详细解析HDFS以及Map-Reduce的,然而查找资料的时候,发现了这篇文章,并且发现caibinbupt已经对Ha...
阅读全文
摘要:转自:http://blog.csdn.net/u011750989/article/details/12004065输入:日期 ...cookie id. ...商品id..xx xx xx输出:商品id 商品id列表(按优先级排序,用逗号分隔)xx xx比如:id1 id3,id0,id4,id...
阅读全文
摘要:转自:http://liujiacai.net/blog/2014/09/07/yarn-intro/Yarn是随着hadoop发展而催生的新框架,全称是Yet Another Resource Negotiator,可以翻译为“另一个资源管理器”。yarn取代了以前hadoop中jobtracke...
阅读全文
摘要:转自:http://www.cnblogs.com/LeftNotEasy/archive/2012/02/18/why-yarn.html前言:有一段时间没有写博客了(发现这是我博客最常见的开头,不过这次间隔真的好长),前段时间事情比较多,所以耽搁得也很多。现在准备计划写一个新的专题,叫做《had...
阅读全文
摘要:转自:http://blog.csdn.net/sdlyjzh/article/details/28876385Hadoop其实并不是一个产品,而是一些独立模块的组合。主要有分布式文件系统HDFS和大型分布式数据处理库MapReduce。由于目前主要用到HDFS,所以这里看一下它的工作原理,以及相应...
阅读全文
摘要:转自:http://www.cnblogs.com/z1987/p/5055565.html MapReduce模型主要包含Mapper类和Reducer类两个抽象类。Mapper类主要负责对数据的分析处理,最终转化为key-value数据对;Reducer类主要获取key-value数据对,然后...
阅读全文
摘要:转自:http://www.cnblogs.com/z1987/p/5052409.html1、map类 map类继承了库类中的Mapper,即Mapper。通常map类中会重写map方法,map每次只接受一个key-value,然后对其进行预处理,再分发出处理后的数据。其map方法为:prote...
阅读全文
摘要:转自:http://www.cnblogs.com/datacloud/p/3604492.html原书章节原书章节题目翻译文章序号翻译文章题目链接4.1JoiningHadoop(1)MapReduce连接:重分区连接(Repartitionjoin)http://www.cnblogs.com/...
阅读全文
摘要:转自:http://www.aboutyun.com/thread-7394-1-1.html了解Storm:http://www.aboutyun.com/thread-9547-1-2.html问题导读:1.hadoop有master与slave,Storm与之对应的节点是什么?2.Storm控...
阅读全文
摘要:转自:http://my.oschina.net/mkh/blog/349866Hbase存储详解 started by chad walters and jim 2006.11 G release paper on BigTable 2007.2 inital Hbase prototype...
阅读全文
摘要:转自:http://blog.csdn.net/androidlushangderen/article/details/47377543HDFS系列:http://blog.csdn.net/Androidlushangderen/article/category/5734703前言在Hadoop内...
阅读全文
摘要:转自:http://blog.csdn.net/androidlushangderen/article/details/48128955YARN学习系列:http://blog.csdn.net/Androidlushangderen/article/category/5780183前言在之前两周主...
阅读全文
摘要:转自:http://blog.csdn.net/androidlushangderen/article/details/45955833storm学习系列:http://blog.csdn.net/Androidlushangderen/article/category/2647213前言什么是st...
阅读全文
摘要:转自:http://blog.csdn.net/androidlushangderen/article/details/41477061上次分析完JobTracker通过TaskScheduler如何把作业分配给TaskTracker,这次把目光 移动到TaskTracker上面。TaskTrack...
阅读全文
摘要:转自:http://blog.csdn.net/Androidlushangderen/article/details/41408517JobTracker的作业调度给我感觉就是比较宏观意义上的操作。倘若你只了解了MapReduce的工作原理是远远不够的,这时去学习一下他在宏观层面的原理实现也是对我...
阅读全文

浙公网安备 33010602011771号