hadoop - 随笔分类 - 51runsky

4. MapReduce

摘要：1. 来源和特点源自于Google的MapReduce论文：发表于2004年12月 Hadoop MapReduce是Google MapReduce克隆版特点：易于编程良好的扩展性高容错性适合PB级以上海量数据的离线处理不擅长的方面：实时计算像MySQL一样，在毫秒级或者秒级内返回结果 ... 阅读全文

posted @ 2015-06-15 11:03 51runsky 阅读(178) 评论(0) 推荐(0)

5. yarn

摘要：一. yarn产生背景： 1. mapreduce 1.0的问题： 1）JobTracker性能问题， 2）JobTracker单点问题，3）只支持mapreduce一个计算框架 2. 资源利用率：3. 运维成本与数据共享：运维成本如果采用“一个框架一个集群”的模式，则可能需要多个管理员管理这些集群，进而增加运维成本，而共享模式通常需要少数管理员即可完成多个框架的统一... 阅读全文

posted @ 2015-06-15 11:01 51runsky 阅读(225) 评论(0) 推荐(0)

4.1 MapReduce架构（1.0）

摘要：1. MapReduce架构：各个角色的功能： 2. MapReduce——容错性： JobTracker 单点故障，一旦出现故障，整个集群不可用 TaskTracker 周期性向JobTracker汇报心跳一旦出现故障，上面所有任务将被调度到其他节点上 MapTask/ReduceTask 运行失败后，将被调度到其他节点上重新执行 3. Ma... 阅读全文

posted @ 2015-06-12 19:41 51runsky 阅读(832) 评论(0) 推荐(0)

3. hdfs原理分析

摘要：1. HDFS （2.0）架构：2. HDFS 设计思想： HDFS数据块（block）:文件被切分成固定大小的数据块默认数据块大小为64MB，可配置若文件大小不到64MB，则单独存成一个block为何数据块如此之大数据传输时间超过寻道时间（高吞吐率）一个文件存储方式按大小被切分成若干个block，存储到不同节点上默认情况下每个block有三个副本 3. HDFS优缺点：优点：高... 阅读全文

posted @ 2015-06-12 19:31 51runsky 阅读(498) 评论(0) 推荐(0)

随笔分类 - hadoop

公告