随笔分类 - hadoop
摘要:全排序:将产生的所有part-r-xxx文件合成到一起,仍然是有序的 全排序的方式主要有以下几种方式。 1).设置一个reduce。我们知道在map端发出数据之后,经过中间的shuffle混洗之后就到达了reduce端,在reduce端需要按照key进行聚合,key在聚合过程期间是要进行排序的, 本
阅读全文
摘要:如上图,InputFormat决定文件的输入格式,切片的计算是由输入格式来进行计算的,我们默认使用的输入格式是文本输入格式TextInputFormat,而TextInputForm是继承自FileInputFormat这个抽象类,在FileInputFormat这个类中,有一个getsplites
阅读全文
摘要:HDFS的block是逻辑上的数据块.Hadoop2.0中每一块默认大小128MB,实际存储过程中block大小小于等128MB,它是以文件为存储对象.如一200MB大小文件,分两个数据块128MB+72MB 这里的两个块大实际小分别是128MB和72MB 算法分析: max(minSize, mi
阅读全文
摘要:在网上看了很多该故障的解决方法,接下来介绍两种 1.解决方法是下载https://github.com/srccodes/hadoop-common-2.2.0-bin文件然后将其中的hadoop.dll文件放到hadoop安装路径的bin文件夹下(配置好HADOOP_HOME的环境变量),然后重启
阅读全文
摘要:自己学习排序和二次排序的知识整理如下。 1.Hadoop的序列化格式介绍:Writable 2.Hadoop的key排序逻辑 3.全排序 4.如何自定义自己的Writable类型 5.如何实现二次排序 1.Hadoop的序列化格式介绍:Writable 要了解和编写MR实现排序必须要知道的第一个知识
阅读全文