本周前几天完成了补课的任务,后几天在学习大数据,不过总结还未做完,后续会进行补充。
前一二三天把因为下雨耽误的课程进行补全,最后一天嗓子都快喊冒烟了也没人听,反正每道题都讲了,听不听的我的责任已经尽到了,而且确实,成绩确实取决于老师严不严,也有部分取决于老师教的好不好,但是我觉得我补的时侯确实已经尽力了,练习册基本每道题都将,经常就是5个小时没停过,但是确实不会的还是不会,主要也不听,也不想听,尽力了。后几天学了学大数据,因为补课前几天就有过学习,基本把配置配好了,但是过来很多天确实有点晕,可能有点难吧,的多听几遍,而且这老师的课程我出的bug特别少,所以很多代码的重复程度少,经常就是听了,打了,但是过几天就忘了,出个bug还能加深印象,现在好了,不过也还行,以后多看几遍,毕竟这玩意出来bug我是真一点也不知道在哪里,准备这两周听完这个,下下周准备回学校的考试。
MapReduce
1、InputFormat
1)默认的是TextInputFormat kv key偏移量 v:一行内容
2)处理的小文件CombineTextInputFormat 把多个文件合并起来
2、Mapper
setup()初始化
map()用户的逻辑
clearup()关闭资源
3 分区
默认分区HashParttitioner,默认按照key的hash值%numreducer
自定义分区
4排序
1)部分排序 每个文件内部有序
2)全排序 一个reduce ,对说有数据排序
3)二次排序 自定义排序范畴 实现writableCompare接口,实现compareTo方法
5、Combiner
前提条件:不影响业务逻辑
提前聚合map =>解决数据倾斜
6Reducer
用户业务逻辑
setup()初始化
reducer()用户的业务逻辑
clearup 关闭资源
7、OutputFormat
1) 默认TextOutPutFormay按行输出到文件
2)自定义
浙公网安备 33010602011771号