文章分类 -  Hadoop

摘要:版权声明:本文为CSDN博主「ZhaoYingChao88」的原创文章,遵循CC 4.0 by-sa版权协议,转载请附上原文出处链接及本声明。原文链接:https://blog.csdn.net/zyc88888/article/details/78544229 阅读全文
posted @ 2019-08-25 15:30 PigeonNoir 阅读(133) 评论(0) 推荐(0)
摘要:前言自2015年下半年起,笔者开始写关于Hadoop的文章(主要集中在HDFS),包括源码分析类的,问题分析解决又或者是内部机制剖析。这些文章目前汇总数量已经达到70+篇。这些文章对于笔者来说是一个宝贵的资料,这些文章见证了笔者从一名Hadoop贡献者成长为Hadoop Committer的过程。同 阅读全文
posted @ 2019-05-14 15:02 PigeonNoir 阅读(165) 评论(0) 推荐(0)
摘要:https://blog.csdn.net/androidlushangderen/article/details/52850349 阅读全文
posted @ 2019-05-14 14:48 PigeonNoir 阅读(87) 评论(0) 推荐(0)
摘要:转载自: https://www.jianshu.com/p/167d7677a050 最近在做HBase跨机房的数据迁移,正好用到HDFS的异构存储,我们使用的场景是将WAL日志保存到SSD中,其他的数据则存储在普通的SATA盘中。既充分利用了本地SSD盘的空间,又达到了提升系统性能的目的。本文是 阅读全文
posted @ 2019-05-14 13:01 PigeonNoir 阅读(545) 评论(0) 推荐(0)
摘要:转载请注明出处:http://www.cnblogs.com/BYRans/ YARN模块介绍 概述 YARN是一个资源管理、任务调度的框架,主要包含三大模块:ResourceManager(RM)、NodeManager(NM)、ApplicationMaster(AM)。其中,ResourceM 阅读全文
posted @ 2018-06-22 17:39 PigeonNoir 阅读(144) 评论(0) 推荐(0)
摘要:经常遇到的exception是:PipeMapRed.waitOutputThreads(): subprocess failed with code N "OS error code 1: Operation not permitted" "OS error code 2: No such fil 阅读全文
posted @ 2018-06-22 14:17 PigeonNoir 阅读(539) 评论(0) 推荐(0)
摘要:理想情况下,我们应用对Yarn资源的请求应该立刻得到满足,但现实情况资源往往是有限的,特别是在一个很繁忙的集群,一个应用资源的请求经常需要等待一段时间才能的到相应的资源。在Yarn中,负责给应用分配资源的就是Scheduler。其实调度本身就是一个难题,很难找到一个完美的策略可以解决所有的应用场景。 阅读全文
posted @ 2018-06-22 14:14 PigeonNoir 阅读(152) 评论(0) 推荐(0)
摘要:Hadoop Streaming 是 Hadoop 提供的一个 MapReduce 编程工具,它允许用户使用任何可执行文件、脚本语言或其他编程语言来实现 Mapper 和 Reducer 作业。比如下面的例子 mapred streaming \ -input myInputDirs \ -outp 阅读全文
posted @ 2018-06-08 09:49 PigeonNoir 阅读(215) 评论(0) 推荐(0)
摘要:一、写在之前的 1.1 回顾Map阶段四大步骤 首先,我们回顾一下在MapReduce中,排序和分组在哪里被执行: 从上图中可以清楚地看出,在Step1.4也就是第四步中,需要对不同分区中的数据进行排序和分组,默认情况下,是按照key进行排序和分组。 1.2 实验场景数据文件 在一些特定的数据文件中 阅读全文
posted @ 2018-06-07 15:53 PigeonNoir 阅读(117) 评论(0) 推荐(0)
摘要:一、回顾Reduce阶段三大步骤 在第四篇博文《初识MapReduce》中,我们认识了MapReduce的八大步骤,其中在Reduce阶段总共三个步骤,如下图所示: 其中,Step2.1就是一个Shuffle操作,它针对多个map任务的输出按照不同的分区(Partition)通过网络复制到不同的re 阅读全文
posted @ 2018-06-07 15:38 PigeonNoir 阅读(103) 评论(0) 推荐(0)
摘要:一、初步探索Partitioner 1.1 再次回顾Map阶段五大步骤 在第四篇博文《初识MapReduce》中,我们认识了MapReduce的八大步凑,其中在Map阶段总共五个步骤,如下图所示: 其中,step1.3就是一个分区操作。通过前面的学习我们知道Mapper最终处理的键值对<key, v 阅读全文
posted @ 2018-06-07 15:22 PigeonNoir 阅读(166) 评论(0) 推荐(0)
摘要:转载自:http://bbs.umeng.com/thread-12187-1-1.html Hadoop框架自身集成了很多第三方的JAR包库。Hadoop框架自身启动或者在运行用户的MapReduce等应用程序时,会优先查找Hadoop预置的JAR包。这样的话,当用户的应用程序使用的第三方库已经存 阅读全文
posted @ 2018-06-06 17:49 PigeonNoir 阅读(1569) 评论(0) 推荐(0)
摘要:转载自:https://blog.csdn.net/karamos/article/details/80123501 在HDFS中,可靠性通过多副本的方式来实现,从而较低的存储利用率成为时下基于HDFS应用的主要问题之一。本文将详细介绍HDFS一个新的特性——Erasure Coding(EC), 阅读全文
posted @ 2018-06-04 17:30 PigeonNoir 阅读(1210) 评论(0) 推荐(0)
摘要:转载自:https://blog.csdn.net/liu812769634/article/details/53097268 对应官方文档:http://hadoop.apache.org/docs/r3.0.2/hadoop-project-dist/hadoop-hdfs/HDFSHighAv 阅读全文
posted @ 2018-05-31 12:56 PigeonNoir 阅读(359) 评论(0) 推荐(0)
摘要:转载自:http://www.bigdatastudy.net/show.aspx?id=458&cid=8 写在前面的话 Hdfs采用分布式架构,为上层的应用和用户提供可扩展、高吞吐、高可靠的数据存储服务。在整个Hadoop生态系统中,hdfs处于最底层,也是最无可替代的一个基础设施。从2008年 阅读全文
posted @ 2018-05-29 15:23 PigeonNoir 阅读(1126) 评论(0) 推荐(0)
摘要:转载自:https://blog.csdn.net/u011026968/article/details/52295666 近几个月主要参与一个分布式存储系统的纠删码部分(用于数据容错),纠删码在学术界出现比较早,现在ceph,微软的存储系统,Hadoop 3.0等都用了EC。文章会分为多篇,主要将 阅读全文
posted @ 2018-05-29 14:33 PigeonNoir 阅读(4168) 评论(0) 推荐(0)