分区数
package spark2020 import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object RddCreate { def main(args:Array[String]):Unit={ val config: SparkConf = new SparkConf().setMaster("local[*]").setAppName("wc") //创建上下文 val sc = new SparkContext(config) //创建RDD //1.从内存中创建,传递的分区参数为分区数 val listRDD:RDD[Int] = sc.makeRDD(List(1,2,3,4)) listRDD.collect().foreach(println) //2.从内存中创建 val listRDD2: RDD[Int] = sc.parallelize(List(5,6,7,8)) listRDD2.collect().foreach(println) //3.从外部文件中创建,指定分区数 //默认情况下读取项目路径,也可以读取其他路径 //默认从文件中读取的数据都是字符串类型 //读取文件时,传递的分区参数为最小分区数,但不一定是这个分区数,取决于hadoop读取文件时分片规则 val fileRDD: RDD[String] = sc.textFile("in",2) fileRDD.saveAsTextFile("out") } }
posted on 2020-12-25 15:51 happygril3 阅读(172) 评论(0) 收藏 举报
浙公网安备 33010602011771号