JIANGzihao0222

导航

 

    本周前几天完成了补课的任务,后几天在学习大数据,不过总结还未做完,后续会进行补充。

    前一二三天把因为下雨耽误的课程进行补全,最后一天嗓子都快喊冒烟了也没人听,反正每道题都讲了,听不听的我的责任已经尽到了,而且确实,成绩确实取决于老师严不严,也有部分取决于老师教的好不好,但是我觉得我补的时侯确实已经尽力了,练习册基本每道题都将,经常就是5个小时没停过,但是确实不会的还是不会,主要也不听,也不想听,尽力了。后几天学了学大数据,因为补课前几天就有过学习,基本把配置配好了,但是过来很多天确实有点晕,可能有点难吧,的多听几遍,而且这老师的课程我出的bug特别少,所以很多代码的重复程度少,经常就是听了,打了,但是过几天就忘了,出个bug还能加深印象,现在好了,不过也还行,以后多看几遍,毕竟这玩意出来bug我是真一点也不知道在哪里,准备这两周听完这个,下下周准备回学校的考试。

MapReduce

1、InputFormat

1)默认的是TextInputFormat kv key偏移量 v:一行内容

2)处理的小文件CombineTextInputFormat 把多个文件合并起来

2、Mapper

setup()初始化

map()用户的逻辑

clearup()关闭资源

3 分区

默认分区HashParttitioner,默认按照key的hash值%numreducer

自定义分区

4排序

1)部分排序 每个文件内部有序

2)全排序 一个reduce ,对说有数据排序

3)二次排序 自定义排序范畴 实现writableCompare接口,实现compareTo方法

5、Combiner

前提条件:不影响业务逻辑

提前聚合map =>解决数据倾斜

6Reducer

用户业务逻辑

setup()初始化

reducer()用户的业务逻辑

clearup 关闭资源

7、OutputFormat

1) 默认TextOutPutFormay按行输出到文件

2)自定义

posted on 2023-08-12 20:32  实名吓我一跳  阅读(11)  评论(0)    收藏  举报