摘要:
RDD的分区器 Spark目前支持Hash分区和Range分区,用户也可以自定义分区,Hash分区为当前的默认分区,Spark中分区器直接决定了RDD中分区的个数、RDD中每条数据经过Shuffle过程属于哪个分区和Reduce的个数。 注意: (1)只有Key-Value类型的RDD才有分区器的, 阅读全文
posted @ 2020-02-26 16:53
盛夏群岛
阅读(325)
评论(0)
推荐(0)
摘要:
RDD的创建 1)从内存中创建 从集合中创建RDD,Spark主要提供了两种函数:parallelize和makeRDD val raw: RDD[Int] = sc.parallelize(1 to 16) val raw: RDD[Int] = sc.makeRDD(1 to 16) 2)从外部 阅读全文
posted @ 2020-02-26 15:27
盛夏群岛
阅读(217)
评论(0)
推荐(0)

浙公网安备 33010602011771号