摘要: reducebyKey会先在本地机器上进行局部聚合,然后在移动数据,进行全局聚合 groupbyKey会先将数据进行移动,再做聚合 reducebyKey适合使用在大数据量上 阅读全文
posted @ 2019-09-03 17:57 hulifang 阅读(2607) 评论(0) 推荐(0)
摘要: 当一个大表和小表进行join操作时,使用mapjoin性能比普通的join要快很多,mapjoin还能解决数据倾斜问题,基本原理:在小数据量情况下,会将小表全部加载到执行join操作的程序的内存中,从而加快join的执行速度。 大小表join时,将小表放在前面,会将小表进行缓存。 mapjoin将小 阅读全文
posted @ 2019-09-03 16:59 hulifang 阅读(2410) 评论(0) 推荐(0)
摘要: 当一个大表和小表进行join操作时,使用mapjoin性能比普通的join要快很多,mapjoin还能解决数据倾斜问题,基本原理:在小数据量情况下,会将小表全部加载到执行join操作的程序的内存中,从而加快join的执行速度。 大小表join时,将小表放在前面,会将小表进行缓存。 mapjoin将小 阅读全文
posted @ 2019-09-03 16:59 hulifang 阅读(717) 评论(0) 推荐(0)