摘要: 1.Application:基于spark的用户程序,包含了一个driver program 和集群中多个 executor 2.Driver Program:运行application的main()函数并自动创建SparkContext。通常SparkContext 代表driver progra 阅读全文
posted @ 2017-07-07 16:45 jialiming 阅读(1602) 评论(0) 推荐(0)
摘要: 1.RDD 的介绍 RDD 是spark的核心概念,可以将RDD是做数据库中的一张表,RDD可以保存任何类型的数据,可以用API来处理RDD及RDD中的数据,类似于Mapreduce, RDD 也有分区的概念。RDD是不可变的可以变换(Transformation)操作RDD,但是这个变换返回的是一 阅读全文
posted @ 2017-07-07 14:17 jialiming 阅读(301) 评论(0) 推荐(0)