sample

sample是在数据源取样。

val data = sc.parallelize(1 to 20)
data.sample(true,0.4).collect

sample第一个参数表示是否是重复抽样,如果是true,则抽象的结果可能会有重复的数字。而false代表抽样的结果是没有重复的。

sample第二个参数表示抽样的数量量,0.4代表是40%

posted @ 2015-05-11 15:48  HarkLee  阅读(494)  评论(0编辑  收藏  举报