Hadoop基础【3】 OutputFormat
摘要:InputFormat描述的是MR的输入规范,而OutputFormat描述的是MR的输出规范。目的是设置MR的作业输出格式。 FileOutputFormat包括了FIleOutputFormat,DBOutputFormat,NullOutputFormat,FilterOutputFormat
阅读全文
Hadoop【2.1】 Shuffle概述
摘要:在每个maptask的结束,我们拿到的是<K,V>的队列,在Reduce中,输入的是<K,Iterable V>。在中间有一个被称为Shuffle的工作,将Maptask的数据按Key排序。其主要的工作,大体上讲1.完整地从map task端拉取数据到reduce端。2.在跨节点拉取数据时,尽可能地
阅读全文
Hadoop基础【1.3】多路径输入 指定Map 自定义输入分片
摘要:1. 多路径输入 对于一个MR程序来说,再所有情况下都只使用一个Path作为我们的输入路径是不现实的,一般都需要从多个路径下取文件。因此提供了FileInputFormat下的static方法setInputPaths以实现此功能(此例中多个路径使用同一个Mapper)。 1 String inPa
阅读全文
Java 文件系统与IO流
摘要:文件系统 java.io中的File类,用于处理文件。 import java.io.File; // 导入File类 File myFile= new File("filepath.txt"); // 指定文件名, win为"path\\filename"", linux是"path/filena
阅读全文
Hadoop基础【1.2】 InputFormat
摘要:hadoop虽然内置了很多个inputFormat但是,有时候还是不满足我们的一些需求,所以我们需要重写一个类,来实现我们对数据的读取。 public abstract class InputFormat<K, V> { public InputFormat() { } public abstrac
阅读全文
Hadoop基础【1.1】 Writeable
摘要:MapReduce由于最耗时的是落盘与通信,所以采用了自定的Writeable的序列化反序列化(在结构化对象与二进制流之间的转换以便于节点通信:压缩过,使得节点之间带宽占用较少,可以快速读写),在Mapper Reducer里头常用的比如LongWriteable Text等等。我们根据不同的需求,
阅读全文
Hadoop基础【1】
摘要:Apache Hadoop,一个稳定 可扩展的分布式计算开源软件。尽管Hadoop版本更新快,但大版本仅包括两个(1和2),Hadoop2多出一层资源管理器Yarn提高了资源了利用率。 核心模块: Hadoop Common、HDFS、Hadoop YARN、Hadoop MR Hadoop Com
阅读全文