20210621---什么都可以输,推进的速度不能输(不要好像,要搞得清清楚楚,潘总就是这样的,你不刨根问底根本接不住他的问题。)---两个概念一比较,就知道有什么不一样了。为什么能工作,为什么不能工作,你都讲不通。

浅显的东西不需要记

day3-13 mapreduce核心思想

核心就是先映射,再归约。先把数据映射成(k,v)的形式,再Reduce聚合到一起算一个总结果。

好比说统计北京不同品牌汽车的数量,要交给多个人去做 ,每个人他也得一辆一辆统计。

 

map和reduce有什么区别?

map是映射 就是把数据分散到不同机器上面的map任务去做,map会一条一条读数据,给出自己的一个初步汇总结果。

reduce是汇聚,就是把多个机器key一样的作为一组,结果汇总到一起。

map是把数据分散到不同机器处理,是为了减少数据处理的压力,reduce是从不同机器汇总特征一样的数据来汇聚统计,是为了获取总的结果。

 

day3-14 写wordcount的思路

map一行一行的读取数据,一行数据转成字符串,然后交给StringTokenizer处理可以按空格分割出字符,然后以单词迭代器的形式输出,每个单词计数1个凑成kv对。context写出(hello,1)的形式。

reduce接收的是单词key和一堆1,然后迭代一加输出就行了。

 

day3-15 自定义wordcount

mapper,reducer,driver 他们有什么区别

 

posted @ 2021-06-21 16:35  写代码是唯一安静独处  阅读(29)  评论(0编辑  收藏  举报