package rdd.builder
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
object Spark_01_RDD_Memory {
def main(args: Array[String]): Unit = {
//TODO 准备环境
val sparkConf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("RDD")
val sc = new SparkContext(sparkConf)
//TODO 创建RDD
//从内存中创建RDD,将内存中集合的数据作为处理的数据源
val seq=Seq[Int](1,2,3,4)
//parallelize并行
//val rdd: RDD[Int] = sc.parallelize(seq)
val rdd: RDD[Int] = sc.makeRDD(seq)
rdd.collect().foreach(println)
//TODO 关闭环境
sc.stop()
}
}
package rdd.builder
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
object Spark_02_RDD_File {
def main(args: Array[String]): Unit = {
//TODO 准备环境
val sparkConf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("RDD")
val sc = new SparkContext(sparkConf)
//TODO 创建RDD
//从文件中创建RDD,将文件中的数据作为处理的数据源
//path路径以当前环境的根目录为基准,可以写绝对路径,也可以写相对路径
//val rdd: RDD[String] = sc.textFile("D:\\SoftWare\\IDEA\\workspace\\SparkStudy\\datas\\1.txt")
//相对路径
//val rdd: RDD[String] = sc.textFile("datas/1.txt")
//目录名称
//val rdd: RDD[String] = sc.textFile("datas")
//通配符
//val rdd: RDD[String] = sc.textFile("datas/1*.txt")
//分布式存储系统路径
val rdd: RDD[String] = sc.textFile("hdfs://master:9000/test")
rdd.collect().foreach(println)
//TODO 关闭环境
sc.stop()
}
}