hadoop - 随笔分类 - shizeqi

hadoop全排序和二次排序

摘要：全排序：将产生的所有part-r-xxx文件合成到一起，仍然是有序的全排序的方式主要有以下几种方式。 1).设置一个reduce。我们知道在map端发出数据之后，经过中间的shuffle混洗之后就到达了reduce端，在reduce端需要按照key进行聚合，key在聚合过程期间是要进行排序的，本阅读全文

posted @ 2018-07-06 07:30 shizeqi 阅读(325) 评论(0) 推荐(0)

mapreduce之数据倾斜

摘要：如上图，InputFormat决定文件的输入格式，切片的计算是由输入格式来进行计算的，我们默认使用的输入格式是文本输入格式TextInputFormat，而TextInputForm是继承自FileInputFormat这个抽象类，在FileInputFormat这个类中，有一个getsplites 阅读全文

posted @ 2018-07-04 22:19 shizeqi 阅读(748) 评论(0) 推荐(0)

hdfs切片的计算方式

摘要：HDFS的block是逻辑上的数据块.Hadoop2.0中每一块默认大小128MB,实际存储过程中block大小小于等128MB,它是以文件为存储对象.如一200MB大小文件,分两个数据块128MB+72MB 这里的两个块大实际小分别是128MB和72MB 算法分析: max(minSize, mi 阅读全文

posted @ 2018-07-04 15:24 shizeqi 阅读(1100) 评论(0) 推荐(0)

Exception in thread "main" java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/lang/String;I)Z 故障解决

摘要：在网上看了很多该故障的解决方法，接下来介绍两种 1.解决方法是下载https://github.com/srccodes/hadoop-common-2.2.0-bin文件然后将其中的hadoop.dll文件放到hadoop安装路径的bin文件夹下（配置好HADOOP_HOME的环境变量），然后重启阅读全文

posted @ 2018-07-04 08:41 shizeqi 阅读(2660) 评论(0) 推荐(0)

Hadoop---mapreduce排序和二次排序以及全排序

摘要：自己学习排序和二次排序的知识整理如下。 1.Hadoop的序列化格式介绍:Writable 2.Hadoop的key排序逻辑 3.全排序 4.如何自定义自己的Writable类型 5.如何实现二次排序 1.Hadoop的序列化格式介绍:Writable 要了解和编写MR实现排序必须要知道的第一个知识阅读全文

posted @ 2018-07-01 16:44 shizeqi 阅读(2250) 评论(0) 推荐(0)

stone

欢迎各位程序猿(媛)朋友交流讨论，微信shizeqi123456

随笔分类 - hadoop

公告