使用Spark进行搜狗日志分析实例——map join的使用
摘要:map join相对reduce join来说,可以减少在shuff阶段的网络传输,从而提高效率,所以大表与小表关联时,尽量将小表数据先用广播变量导入内存,后面各个executor都可以直接使用 结果展示:
阅读全文
posted @ 2018-10-21 22:21
posted @ 2018-10-21 22:21
posted @ 2018-10-18 22:00
posted @ 2018-10-17 22:01