摘要:
公司数仓迁移完成了,现在所有的数据一天6T的用户行为数据全部由一个spark脚本,关联用户属性数据生成最终想要的数据。里面让我感触最深的是资源的使用spark优化,再此记录一篇关于sparksql优化的文章,专门总结以下现在使用的资源优化及以前使用的资源优化。 一:资源优化 1.对于数据处理的分组 阅读全文
posted @ 2020-03-29 22:10
Kotlin
阅读(1555)
评论(0)
推荐(0)
摘要:
公司所有产品均是json数据上报给数仓使用,由于格式的不统一造成数据处理很麻烦,经过讨论将公共字段抽取出来,将业务线自己的字段放在 extends字段里面各个业务线的人自己写sql解析extends字段处理。里面涉及到一个json转map的知识点再此记录一下。 一:JSON转Map 1.为什需要将J 阅读全文
posted @ 2020-03-29 00:40
Kotlin
阅读(735)
评论(0)
推荐(0)

浙公网安备 33010602011771号