MapReduce - 随笔分类 - Yr-Zhang

mapreduce的多种格式文件输出-自定义OutputFormat

摘要：/** * @description: mapreduce多种格式的文件输出方式 */ public class MultipleTypeOutputFormat<K, V> extends FileOutputFormat<K, V> { private static final String O 阅读全文

posted @ 2024-05-31 17:52 Yr-Zhang 阅读(41) 评论(0) 推荐(0)

oracle数据到hbase中利用MR

摘要：参考学习:https://blog.csdn.net/huangliuyu00/article/details/79676644 阅读全文

posted @ 2022-08-16 10:46 Yr-Zhang 阅读(47) 评论(0) 推荐(0)

MapReduce设置输出文件到多个文件夹下(二)

摘要：app类 package mrtest.multipleout; import com.zyr.baseutil.UrlUtil; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; impor 阅读全文

posted @ 2022-06-10 16:57 Yr-Zhang 阅读(144) 评论(0) 推荐(0)

MapReduce处理大(小)文件的方式

摘要：1.输入大文件时 conf.setLong(FileInputFormat.SPLIT_MINSIZE,1024*1024*256L); //小于这个数据时进行合并 conf.setLong(FileInputFormat.SPLIT_MAXSIZE,1024*1024*1024); //大于这个数阅读全文

posted @ 2021-06-21 17:44 Yr-Zhang 阅读(353) 评论(0) 推荐(0)

MR错误问题的记录

摘要：hadoop Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-out 程序里面打开文件数达到上限，系统一般默认数量是1024，（用ulimit -a可以看到）修改系统文件打开个数： vi /etc/security/limits 阅读全文

posted @ 2020-07-15 10:17 Yr-Zhang 阅读(274) 评论(0) 推荐(0)

Mapreduce中Map与Reduce的个数制定

摘要：操作： MapReduce框架将文件分为多个splits，并为每个splits创建一个Mapper，所以Mappers的个数直接由splits的数目决定。而Reducers的数目可以通过job.setNumReduceTasks()函数设置 1、Map任务的个数：理论值： 1、Mapper数据过大阅读全文

posted @ 2020-07-10 16:09 Yr-Zhang 阅读(3876) 评论(0) 推荐(0)

mapreduce参数记录

摘要：mapred-default.xml：版本参数位置参数名默认值说明 cdh5.0.1 mapred-default.xml mapred.reduce.tasks（mapreduce.job.reduces） 1 默认启动的reduce数。通过该参数可以手动修改reduce的个数 mapr 阅读全文

posted @ 2020-07-10 14:38 Yr-Zhang 阅读(201) 评论(0) 推荐(0)

学习记录CombineFileInputFormat类

摘要：基本摘自网上给自己做一记录，如有错误请斧正 CombineFileInputFormat是一个抽象类。Hadoop提供了两个实现类CombineTextInputFormat和CombineSequenceFileInputFormat。其继承关系如下： InputFormat >FileInpu 阅读全文

posted @ 2020-05-16 16:01 Yr-Zhang 阅读(774) 评论(0) 推荐(0)

A集群使用MR给B集群的HBase写数据出错

摘要：20/01/07 10:40:48 INFO mapreduce.Job: map 91% reduce 0%20/01/07 10:40:50 INFO mapreduce.Job: map 94% reduce 0%20/01/07 10:40:51 INFO mapreduce.Job: ma 阅读全文

posted @ 2020-01-07 17:56 Yr-Zhang 阅读(646) 评论(0) 推荐(0)

MapReduce设置输出文件到多个文件夹下

摘要：一：自定义OutputFormat类MapReduce默认的OutPutFormat会将结果输出文件放置到一个我们指定的目录下，但如果想把输出文件根据某个条件，把满足不同条件的内容分别输出到不同的目录下，就需要自定义实现OutputFormat类，且重写RecordWriter方法。在驱动类中设置阅读全文

posted @ 2019-09-27 14:34 Yr-Zhang 阅读(1143) 评论(0) 推荐(0)

多个job存依赖关系如何使用

摘要：后面补上 https://zl520878.iteye.com/blog/2243897 阅读全文

posted @ 2019-05-27 10:51 Yr-Zhang 阅读(281) 评论(0) 推荐(0)

MapReduce的自定义排序、分区和分组

摘要：自定义排序（WritableComparable）当写mr程序来处理文本时，经常会将处理后的信息封装到我们自定义的bean中，并将bean作为map输出的key来传输而mr程序会在处理数据的过程中（传输到reduce之前）对数据排序（如：map端生成的文件中的内容分区且区内有序）。操作：自定阅读全文

posted @ 2019-05-17 23:28 Yr-Zhang 阅读(2258) 评论(0) 推荐(0)

MapReduce使用记录之Combiner

摘要：MapReduce中Combiner的作用和用法作用： ①每一个map可能会产生大量的输出，Combiner的作用就是在map端对输出先做一次合并，以减少传输到reducer的数据量。 ②Combiner最基本是实现本地key的归并，Combiner具有类似本地的reduce功能。优点：如果不阅读全文

posted @ 2019-05-17 22:40 Yr-Zhang 阅读(477) 评论(0) 推荐(0)

mapreduce的初识

摘要：MapReduce进程一个完整的mapreduce程序在分布式运行时有三类实例进程：1）MrAppMaster：负责整个程序的过程调度及状态协调2）MapTask：负责map阶段的整个数据处理流程3）ReduceTask：负责reduce阶段的整个数据处理流程理论（后续补齐）： MapReduce 阅读全文

posted @ 2019-05-17 22:28 Yr-Zhang 阅读(165) 评论(0) 推荐(0)

利用Key的排序进行二次排序

摘要：业务描述：商品价格和订单号进行排序，获取最大的商品价格第一步：job的描述 public class OrderDriver { public static void main(String[] args) throws Exception { // 1 获取配置信息 Configuration 阅读全文

posted @ 2019-05-08 00:47 Yr-Zhang 阅读(415) 评论(0) 推荐(0)

多个map对应一个reduce记录

摘要：/* 说明，对于数据来源的格式不一致，获取源头一处问题，我们采取多端的输入，一个reduce的处理*/ 按单词统计来说第一步：App /** *把多个map封装到job中，启动job */ public class WCApp { public static void main(String[] 阅读全文

posted @ 2019-05-07 22:56 Yr-Zhang 阅读(486) 评论(0) 推荐(0)

MapReduce任务中常使用的命令

摘要：获取任务id，然后通过命令关闭： hadoop job -list hadoop job -kill job_id 新版本的hadoop可能要新的命令： yarn application -list yarn application -kill job_id 更换任务资源池： yarn applic 阅读全文

posted @ 2019-05-04 11:53 Yr-Zhang 阅读(1326) 评论(0) 推荐(0)

大表 + 大表完成用户和用户订单 = 读取的方式+读取的方式

摘要：join端连接 1.自定义key package com.mine.hdfs.mr.mapjoin.reducejoin; import org.apache.hadoop.io.WritableComparable; import java.io.DataInput; import java.io 阅读全文

posted @ 2019-04-22 23:16 Yr-Zhang 阅读(361) 评论(0) 推荐(0)

小表 + 大表完成用户和用户订单内存+读取的方式

摘要：map端join 1.创建Mapper package com.mine.hdfs.mr.mapjoin; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; impo 阅读全文

posted @ 2019-04-22 23:12 Yr-Zhang 阅读(235) 评论(0) 推荐(0)

☆☆☆★☆☆☆

导航

公告

随笔分类 - MapReduce