摘要:/** * @description: mapreduce多种格式的文件输出方式 */ public class MultipleTypeOutputFormat<K, V> extends FileOutputFormat<K, V> { private static final String O
阅读全文
摘要:参考学习:https://blog.csdn.net/huangliuyu00/article/details/79676644
阅读全文
摘要:app类 package mrtest.multipleout; import com.zyr.baseutil.UrlUtil; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; impor
阅读全文
摘要:1.输入大文件时 conf.setLong(FileInputFormat.SPLIT_MINSIZE,1024*1024*256L); //小于这个数据时进行合并 conf.setLong(FileInputFormat.SPLIT_MAXSIZE,1024*1024*1024); //大于这个数
阅读全文
摘要:hadoop Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-out 程序里面打开文件数达到上限,系统一般默认数量是1024,(用ulimit -a可以看到) 修改系统文件打开个数: vi /etc/security/limits
阅读全文
摘要:操作: MapReduce框架将文件分为多个splits,并为每个splits创建一个Mapper,所以Mappers的个数直接由splits的数目决定。而Reducers的数目可以通过job.setNumReduceTasks()函数设置 1、Map任务的个数: 理论值: 1、Mapper数据过大
阅读全文
摘要:mapred-default.xml: 版本 参数位置 参数名 默认值 说明 cdh5.0.1 mapred-default.xml mapred.reduce.tasks(mapreduce.job.reduces) 1 默认启动的reduce数。通过该参数可以手动修改reduce的个数 mapr
阅读全文
摘要:基本摘自网上给自己做一记录,如有错误请斧正 CombineFileInputFormat是一个抽象类。Hadoop提供了两个实现类CombineTextInputFormat和CombineSequenceFileInputFormat。 其继承关系如下: InputFormat >FileInpu
阅读全文
摘要:20/01/07 10:40:48 INFO mapreduce.Job: map 91% reduce 0%20/01/07 10:40:50 INFO mapreduce.Job: map 94% reduce 0%20/01/07 10:40:51 INFO mapreduce.Job: ma
阅读全文
摘要:一:自定义OutputFormat类MapReduce默认的OutPutFormat会将结果输出文件放置到一个我们指定的目录下,但如果想把输出文件根据某个条件,把满足不同条件的内容分别输出到不同的目录下, 就需要自定义实现OutputFormat类,且重写RecordWriter方法。在驱动类中设置
阅读全文
摘要:后面补上 https://zl520878.iteye.com/blog/2243897
阅读全文
摘要:自定义排序(WritableComparable) 当写mr程序来处理文本时,经常会将处理后的信息封装到我们自定义的bean中,并将bean作为map输出的key来传输 而mr程序会在处理数据的过程中(传输到reduce之前)对数据排序(如:map端生成的文件中的内容分区且区内有序)。 操作: 自定
阅读全文
摘要:MapReduce中Combiner的作用和用法 作用: ①每一个map可能会产生大量的输出,Combiner的作用就是在map端对输出先做一次合并,以减少传输到reducer的数据量。 ②Combiner最基本是实现本地key的归并,Combiner具有类似本地的reduce功能。 优点: 如果不
阅读全文
摘要:MapReduce进程一个完整的mapreduce程序在分布式运行时有三类实例进程:1)MrAppMaster:负责整个程序的过程调度及状态协调2)MapTask:负责map阶段的整个数据处理流程3)ReduceTask:负责reduce阶段的整个数据处理流程 理论(后续补齐): MapReduce
阅读全文
摘要:业务描述:商品价格和订单号进行排序,获取最大的商品价格 第一步:job的描述 public class OrderDriver { public static void main(String[] args) throws Exception { // 1 获取配置信息 Configuration
阅读全文
摘要:/* 说明,对于数据来源的格式不一致,获取源头一处问题,我们采取多端的输入,一个reduce的处理*/ 按单词统计来说 第一步 :App /** *把多个map封装到job中,启动job */ public class WCApp { public static void main(String[]
阅读全文
摘要:获取任务id,然后通过命令关闭: hadoop job -list hadoop job -kill job_id 新版本的hadoop可能要新的命令: yarn application -list yarn application -kill job_id 更换任务资源池: yarn applic
阅读全文
摘要:join端连接 1.自定义key package com.mine.hdfs.mr.mapjoin.reducejoin; import org.apache.hadoop.io.WritableComparable; import java.io.DataInput; import java.io
阅读全文
摘要:map端join 1.创建Mapper package com.mine.hdfs.mr.mapjoin; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; impo
阅读全文