会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
私人小院
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
13
14
15
16
17
18
19
20
21
···
35
下一页
2021年12月27日
03_MapReduce框架原理_3.8 排序 WritableComparable
摘要: 1. 说明 2. 排序时机 与 排序算法 流程图 3. 排序分类 4. 实现 1. 说明 自定义类 为key 时,必须 实现 WritableComparable接口,否则无法排序 2. 实现 自定义类 实现 WritableComparable接口, 重写 compareTo 方法 5. 代码案例
阅读全文
posted @ 2021-12-27 08:44 学而不思则罔!
阅读(82)
评论(0)
推荐(0)
2021年12月22日
03_MapReduce框架原理_3.7 Partition 分区个数、ReduceTask并行度、分区器
摘要: 1. Partition 分区个数、ReduceTask并行度、分区器 点击查看 分区器 源码 /* 分区器使用流程 1. Driver中 指定分区个数 和分区器实现类 分区个数(ReduceTask个数) : job.setNumReduceTasks(n) 或 mapreduce.job.red
阅读全文
posted @ 2021-12-22 17:41 学而不思则罔!
阅读(130)
评论(0)
推荐(0)
03_MapReduce框架原理_3.6 Shuffle机制(源码)
摘要: 点击查看 Shuffle 流程图 点击查看 Shuffle 机制 说明 Hadoop 6. Shuffle 机制 - (流程) 1. 什么是Shuffle&Shuffle的作用 1. Map方法之后,Reduce方法之前的数据处理过程 称之为 Shuffle 2. 流程说明 1. MapTask 通
阅读全文
posted @ 2021-12-22 16:37 学而不思则罔!
阅读(106)
评论(0)
推荐(0)
2021年12月19日
03_MapReduce框架原理_3.5 InputFormat 数据输入类(源码)
摘要: Hadoop 1. InputFormat(抽象类) 数据输入 1.2.1 FileInputFormat 1. 切片方法 1.1 抽象方法 1. public abstract List<InputSplit> getSplits (JobContext context) 2. public ab
阅读全文
posted @ 2021-12-19 23:10 学而不思则罔!
阅读(104)
评论(0)
推荐(0)
03_MapReduce框架原理_3.4 InputSplit 切片类(源码)
摘要: Hadoop 2. InputSplit 切片类 1.0 类的作用 InputSplit 他在逻辑上包含了提供给处理这个Inputsplit的Mapper的所有的key-value 1.1 抽象方法 1. public abstract long getLength() 2. public abst
阅读全文
posted @ 2021-12-19 22:39 学而不思则罔!
阅读(168)
评论(0)
推荐(0)
03_MapReduce框架原理_3.3 切片与 MapTask并行度
摘要: Hadoop 3. 切片 与 MapTask并行度 1. MapTask并行度 切片数 = MapTask 任务数(并行度) 0 . 术语 1. 数据块(Block) 2. 数据切片(Split) 1. Block是 HDFS物理上把数据文件分成一块一块 1. 数据切片只是在 逻辑上对输入数据进行分
阅读全文
posted @ 2021-12-19 17:53 学而不思则罔!
阅读(51)
评论(0)
推荐(0)
2021年12月16日
03_MapReduce框架原理_3.2 Job提交流程(源码)
摘要: Hadoop 2. Job提交流程(源码) 1. 客户端 执行Driver类的main方法 2. var configuration = new Configuration 读取配置文件 Configuration: core-default.xml, core-site.xml, mapred-d
阅读全文
posted @ 2021-12-16 21:43 学而不思则罔!
阅读(71)
评论(0)
推荐(0)
03_MapReduce框架原理_3.1 MapReduce 框架原理示意图
摘要:
阅读全文
posted @ 2021-12-16 19:50 学而不思则罔!
阅读(42)
评论(0)
推荐(0)
2021年12月13日
02_Hadoop序列化_2.2 自定义Bean对象 实现序列化接口(Writable)
摘要: 代码示例 package GroupByPoneNumPk { import java.io.{DataInput, DataOutput} import java.lang import org.apache.hadoop.conf.Configuration import org.apache.
阅读全文
posted @ 2021-12-13 19:29 学而不思则罔!
阅读(158)
评论(0)
推荐(0)
02_Hadoop序列化_2.1 序列化概述
摘要: 4. Java序列化(Serializable)框架 or Hadoop序列化(Writable)框架 代码示例 package twoPk { import java.io._ import java.util.Date import org.apache.hadoop.io.Writable /
阅读全文
posted @ 2021-12-13 19:28 学而不思则罔!
阅读(36)
评论(0)
推荐(0)
上一页
1
···
13
14
15
16
17
18
19
20
21
···
35
下一页
公告