分区数

 

 

 

package spark2020

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object RddCreate {
  def main(args:Array[String]):Unit={
    val config: SparkConf = new SparkConf().setMaster("local[*]").setAppName("wc")

    //创建上下文
    val sc = new SparkContext(config)

    //创建RDD
    //1.从内存中创建,传递的分区参数为分区数
    val listRDD:RDD[Int] = sc.makeRDD(List(1,2,3,4))
    listRDD.collect().foreach(println)

    //2.从内存中创建
    val listRDD2: RDD[Int] = sc.parallelize(List(5,6,7,8))
    listRDD2.collect().foreach(println)

    //3.从外部文件中创建,指定分区数
    //默认情况下读取项目路径,也可以读取其他路径
    //默认从文件中读取的数据都是字符串类型
    //读取文件时,传递的分区参数为最小分区数,但不一定是这个分区数,取决于hadoop读取文件时分片规则
    val fileRDD: RDD[String] = sc.textFile("in",2)

    fileRDD.saveAsTextFile("out")
    
  }

}

 

posted on 2020-12-25 15:51  happygril3  阅读(172)  评论(0)    收藏  举报

导航