分区数

package spark2020

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object RddCreate {
  def main(args:Array[String]):Unit={
    val config: SparkConf = new SparkConf().setMaster("local[*]").setAppName("wc")

    //创建上下文
    val sc = new SparkContext(config)

    //创建RDD
    //1.从内存中创建,传递的分区参数为分区数
    val listRDD:RDD[Int] = sc.makeRDD(List(1,2,3,4))
    listRDD.collect().foreach(println)

    //2.从内存中创建
    val listRDD2: RDD[Int] = sc.parallelize(List(5,6,7,8))
    listRDD2.collect().foreach(println)

    //3.从外部文件中创建,指定分区数
    //默认情况下读取项目路径，也可以读取其他路径
    //默认从文件中读取的数据都是字符串类型
    //读取文件时，传递的分区参数为最小分区数，但不一定是这个分区数，取决于hadoop读取文件时分片规则
    val fileRDD: RDD[String] = sc.textFile("in",2)

    fileRDD.saveAsTextFile("out")
    
  }

}

posted on 2020-12-25 15:51 happygril3 阅读(177) 评论(0) 收藏举报

刷新页面返回顶部

happygril3

分区数

导航

公告