☆☆☆★☆☆☆

唯有努力才能活成自己想要活成的样子

导航

随笔分类 -  MapReduce

this is MapReduce des
mapreduce的多种格式文件输出-自定义OutputFormat
摘要:/** * @description: mapreduce多种格式的文件输出方式 */ public class MultipleTypeOutputFormat<K, V> extends FileOutputFormat<K, V> { private static final String O 阅读全文

posted @ 2024-05-31 17:52 Yr-Zhang 阅读(41) 评论(0) 推荐(0)

oracle数据到hbase中利用MR
摘要:参考学习:https://blog.csdn.net/huangliuyu00/article/details/79676644 阅读全文

posted @ 2022-08-16 10:46 Yr-Zhang 阅读(47) 评论(0) 推荐(0)

MapReduce设置输出文件到多个文件夹下(二)
摘要:app类 package mrtest.multipleout; import com.zyr.baseutil.UrlUtil; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; impor 阅读全文

posted @ 2022-06-10 16:57 Yr-Zhang 阅读(144) 评论(0) 推荐(0)

MapReduce处理大(小)文件的方式
摘要:1.输入大文件时 conf.setLong(FileInputFormat.SPLIT_MINSIZE,1024*1024*256L); //小于这个数据时进行合并 conf.setLong(FileInputFormat.SPLIT_MAXSIZE,1024*1024*1024); //大于这个数 阅读全文

posted @ 2021-06-21 17:44 Yr-Zhang 阅读(353) 评论(0) 推荐(0)

MR错误问题的记录
摘要:hadoop Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-out 程序里面打开文件数达到上限,系统一般默认数量是1024,(用ulimit -a可以看到) 修改系统文件打开个数: vi /etc/security/limits 阅读全文

posted @ 2020-07-15 10:17 Yr-Zhang 阅读(274) 评论(0) 推荐(0)

Mapreduce中Map与Reduce的个数制定
摘要:操作: MapReduce框架将文件分为多个splits,并为每个splits创建一个Mapper,所以Mappers的个数直接由splits的数目决定。而Reducers的数目可以通过job.setNumReduceTasks()函数设置 1、Map任务的个数: 理论值: 1、Mapper数据过大 阅读全文

posted @ 2020-07-10 16:09 Yr-Zhang 阅读(3876) 评论(0) 推荐(0)

mapreduce参数记录
摘要:mapred-default.xml: 版本 参数位置 参数名 默认值 说明 cdh5.0.1 mapred-default.xml mapred.reduce.tasks(mapreduce.job.reduces) 1 默认启动的reduce数。通过该参数可以手动修改reduce的个数 mapr 阅读全文

posted @ 2020-07-10 14:38 Yr-Zhang 阅读(201) 评论(0) 推荐(0)

学习记录CombineFileInputFormat类
摘要:基本摘自网上给自己做一记录,如有错误请斧正 CombineFileInputFormat是一个抽象类。Hadoop提供了两个实现类CombineTextInputFormat和CombineSequenceFileInputFormat。 其继承关系如下: InputFormat >FileInpu 阅读全文

posted @ 2020-05-16 16:01 Yr-Zhang 阅读(774) 评论(0) 推荐(0)

A集群使用MR给B集群的HBase写数据出错
摘要:20/01/07 10:40:48 INFO mapreduce.Job: map 91% reduce 0%20/01/07 10:40:50 INFO mapreduce.Job: map 94% reduce 0%20/01/07 10:40:51 INFO mapreduce.Job: ma 阅读全文

posted @ 2020-01-07 17:56 Yr-Zhang 阅读(646) 评论(0) 推荐(0)

MapReduce设置输出文件到多个文件夹下
摘要:一:自定义OutputFormat类MapReduce默认的OutPutFormat会将结果输出文件放置到一个我们指定的目录下,但如果想把输出文件根据某个条件,把满足不同条件的内容分别输出到不同的目录下, 就需要自定义实现OutputFormat类,且重写RecordWriter方法。在驱动类中设置 阅读全文

posted @ 2019-09-27 14:34 Yr-Zhang 阅读(1143) 评论(0) 推荐(0)

多个job存依赖关系如何使用
摘要:后面补上 https://zl520878.iteye.com/blog/2243897 阅读全文

posted @ 2019-05-27 10:51 Yr-Zhang 阅读(281) 评论(0) 推荐(0)

MapReduce的自定义排序、分区和分组
摘要:自定义排序(WritableComparable) 当写mr程序来处理文本时,经常会将处理后的信息封装到我们自定义的bean中,并将bean作为map输出的key来传输 而mr程序会在处理数据的过程中(传输到reduce之前)对数据排序(如:map端生成的文件中的内容分区且区内有序)。 操作: 自定 阅读全文

posted @ 2019-05-17 23:28 Yr-Zhang 阅读(2258) 评论(0) 推荐(0)

MapReduce使用记录之Combiner
摘要:MapReduce中Combiner的作用和用法 作用: ①每一个map可能会产生大量的输出,Combiner的作用就是在map端对输出先做一次合并,以减少传输到reducer的数据量。 ②Combiner最基本是实现本地key的归并,Combiner具有类似本地的reduce功能。 优点: 如果不 阅读全文

posted @ 2019-05-17 22:40 Yr-Zhang 阅读(477) 评论(0) 推荐(0)

mapreduce的初识
摘要:MapReduce进程一个完整的mapreduce程序在分布式运行时有三类实例进程:1)MrAppMaster:负责整个程序的过程调度及状态协调2)MapTask:负责map阶段的整个数据处理流程3)ReduceTask:负责reduce阶段的整个数据处理流程 理论(后续补齐): MapReduce 阅读全文

posted @ 2019-05-17 22:28 Yr-Zhang 阅读(165) 评论(0) 推荐(0)

利用Key的排序进行二次排序
摘要:业务描述:商品价格和订单号进行排序,获取最大的商品价格 第一步:job的描述 public class OrderDriver { public static void main(String[] args) throws Exception { // 1 获取配置信息 Configuration 阅读全文

posted @ 2019-05-08 00:47 Yr-Zhang 阅读(415) 评论(0) 推荐(0)

多个map对应一个reduce记录
摘要:/* 说明,对于数据来源的格式不一致,获取源头一处问题,我们采取多端的输入,一个reduce的处理*/ 按单词统计来说 第一步 :App /** *把多个map封装到job中,启动job */ public class WCApp { public static void main(String[] 阅读全文

posted @ 2019-05-07 22:56 Yr-Zhang 阅读(486) 评论(0) 推荐(0)

MapReduce任务中常使用的命令
摘要:获取任务id,然后通过命令关闭: hadoop job -list hadoop job -kill job_id 新版本的hadoop可能要新的命令: yarn application -list yarn application -kill job_id 更换任务资源池: yarn applic 阅读全文

posted @ 2019-05-04 11:53 Yr-Zhang 阅读(1326) 评论(0) 推荐(0)

大表 + 大表 完成用户和用户订单 = 读取的方式+读取的方式
摘要:join端连接 1.自定义key package com.mine.hdfs.mr.mapjoin.reducejoin; import org.apache.hadoop.io.WritableComparable; import java.io.DataInput; import java.io 阅读全文

posted @ 2019-04-22 23:16 Yr-Zhang 阅读(361) 评论(0) 推荐(0)

小表 + 大表 完成用户和用户订单 内存+读取的方式
摘要:map端join 1.创建Mapper package com.mine.hdfs.mr.mapjoin; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; impo 阅读全文

posted @ 2019-04-22 23:12 Yr-Zhang 阅读(235) 评论(0) 推荐(0)