摘要:
1 采样算法解决数据倾斜的思想 2 采样算法在spark数据倾斜中的具体操作 阅读全文
posted @ 2018-10-16 23:40
大葱拌豆腐
阅读(1040)
评论(0)
推荐(0)
摘要:
Spark中组件Mllib的学习之基础概念篇 1、解释 分层抽样的概念就不讲了,具体的操作: RDD有个操作可以直接进行抽样:sampleByKey和sample等,这里主要介绍这两个 (1)将字符串长度为2划分为层2,字符串长度为3划分为层1,对层1和层2按不同的概率进行抽样 数据 比如: val 阅读全文
posted @ 2018-10-16 23:36
大葱拌豆腐
阅读(2075)
评论(0)
推荐(0)
浙公网安备 33010602011771号