wubinghuan

随笔分类 - Spark实例

Spark实例

使用Spark进行搜狗日志分析实例——map join的使用

摘要：map join相对reduce join来说，可以减少在shuff阶段的网络传输，从而提高效率，所以大表与小表关联时，尽量将小表数据先用广播变量导入内存，后面各个executor都可以直接使用结果展示：阅读全文

posted @ 2018-10-21 22:21 wubinghuan 阅读(2076) 评论(0) 推荐(0)

使用Spark进行搜狗日志分析实例——列出搜索不同关键词超过10个的用户及其搜索的关键词

摘要：运行结果：阅读全文

posted @ 2018-10-18 22:00 wubinghuan 阅读(1407) 评论(0) 推荐(0)

使用Spark进行搜狗日志分析实例——统计每个小时的搜索量

摘要：运行结果：搜狗日志下载地址：http://www.sogou.com/labs/resource/q.php 阅读全文

posted @ 2018-10-17 22:01 wubinghuan 阅读(2274) 评论(0) 推荐(0)

导航

公告