摘要:
创建RDD: 1:使用程序中的集合创建RDD,主要用于进行测试,可以在实际部署到集群运行之前,自己使用集合构造测试数据,来测试后面的spark应用流程。 2:使用本地文件创建RDD,主要用于临时性地处理一些储存了大量数据的文件 3:使用HDFS文件创建RDD,应该是最常用的生产环境处理方式,主要可以 阅读全文
posted @ 2017-06-12 15:42
yesyeszero
阅读(198)
评论(0)
推荐(0)
摘要:
Spark核心组件 1、Driver 2、Master 3、Worker 4、Executor 4、Task 1:Driver程序启动后,会做一些初始化的操作,在这个过程中,就会发送请求到Master上,进行Spark应用程序的注册,说白了,就是让Master知道,有一个新的Spark程序要运行。 阅读全文
posted @ 2017-06-12 10:51
yesyeszero
阅读(227)
评论(0)
推荐(0)

浙公网安备 33010602011771号