会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
市丸银
知行合一
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
31
32
33
34
35
36
37
38
39
···
97
下一页
2020年9月4日
KeyValueTextInputFormat 案例
摘要: 一、需求分析 1、文件 hadoop is ok hadoop not ok java is fun php is ok php is pretty python is all 2、需求 统计输入文件中每一行的第一个单词相同的行数 3、分析 每一行第一个单词的数量,只能用KeyValueTextIn
阅读全文
posted @ 2020-09-04 10:49 市丸银
阅读(235)
评论(0)
推荐(0)
2020年9月3日
FileInputFormat实现类
摘要: 一、TextInputFormat 1、TextInputFormat是默认的FileInputFormat的实现类。2、按行读取每条记录。3、键:存储该行在整个文件中起始字节偏移量,LongwWritable类型4、值:这行的内容,不包含任何行终止符(换行符和回车符),Text类型 注意:键的值:
阅读全文
posted @ 2020-09-03 22:40 市丸银
阅读(238)
评论(0)
推荐(0)
CombineTextInputFormat 案例
摘要: 一、核心代码(依托于自定义的WordCount) 1、位置 在设置输入和输出路径前 2、代码 // 设置 job.setInputFormatClass(CombineTextInputFormat.class); CombineTextInputFormat.setMaxInputSplitSiz
阅读全文
posted @ 2020-09-03 22:10 市丸银
阅读(529)
评论(0)
推荐(0)
FileInputFormat 和 CombineTextInputFormat 切片机制
摘要: 一、FileInputFormat切片机制 1、简单的按照文件长度进行切片 2、切片大小,默认值为BlockSize 3、切片时不考虑整体数据,而是逐个针对单一文件切片 二、CombineTextInputFormat切片机制 A、产生原因: 处理大量单独的小文件,每个小文件都会产生一个MapTas
阅读全文
posted @ 2020-09-03 21:36 市丸银
阅读(347)
评论(0)
推荐(0)
MapTask 并行度决定机制
摘要: 1、区分 数据块: 物理数据切片: 逻辑 2、决定机制 1、一个Job的Map阶段并行度(数量)由客户端提交Job时的切片数量决定2、一个切片对应一个MapTask3、默认情况下,切片大小==BlockSize(128M)4、切片时不考虑数据集整体性,而是针对每个文件单独切片总结:MapTask的数
阅读全文
posted @ 2020-09-03 17:09 市丸银
阅读(351)
评论(0)
推荐(0)
Java 工作
摘要: 因工作需要 由python工程师->java工程师 也算圆了大学时的梦想 一、Bean // 依赖 mybatis mybatis-plus @TableName("tp_abcdr") @Data @NoArgsConstructor @JsonInclude(JsonInclude.Includ
阅读全文
posted @ 2020-09-03 15:53 市丸银
阅读(167)
评论(0)
推荐(0)
Hadoop 流量案例
摘要: 一、需求 统计每一个手机号耗费的总上行流量、下行流量、总流量 二、分析 1、输入内容 1 13736230513 192.196.100.1 www.atguigu.com 2481 24681 200 2 13846544121 192.196.100.2 264 0 200 3 13956435
阅读全文
posted @ 2020-09-03 14:44 市丸银
阅读(220)
评论(0)
推荐(0)
Hadoop 序列化
摘要: 一、优点 1、紧凑:节省内存 2、快速:读取速度快 3、可扩展:随着协议升级 4、互操作:支持多语言交互 二、Bean对象实现序列化 1、步骤 a、必须实现Writable接口 b、必须有空参构造,反序列化时,反射调用 c、重写序列化方法 d、重写反序列化方法 e、序列化方法和反序列化方法参数顺序要
阅读全文
posted @ 2020-09-03 08:00 市丸银
阅读(227)
评论(0)
推荐(0)
Java 和 Hadoop的数据类型
摘要: Java类型 Hadoop Writable类型 boolean BooleanWritable byte ByteWritable int IntWritable float FloatWritable long LongWritable double DoubleWritable String
阅读全文
posted @ 2020-09-03 07:08 市丸银
阅读(300)
评论(0)
推荐(0)
2020年9月2日
MapReduce WordCount实操
摘要: 一、前提 1、创建Maven项目 2、导入依赖 <dependencies> <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>RELEASE</version> </dependency> <
阅读全文
posted @ 2020-09-02 22:21 市丸银
阅读(217)
评论(0)
推荐(0)
上一页
1
···
31
32
33
34
35
36
37
38
39
···
97
下一页
公告