摘要: spark-shell --master yarnsc:val lineRDD=sc.textFile("/test/input/test")lineRDD.collect().foreach(println)val wordRDD = lineRDDwordRDD.collect().foreac 阅读全文
posted @ 2018-11-10 16:03 TIMLONG 阅读(670) 评论(0) 推荐(0)
摘要: var是一个可变变量,这是一个可以通过重新分配来更改为另一个值的变量。这种声明变量的方式和java中声明变量的方式一样。 val是一个只读变量,这种声明变量的方式相当于java中的final变量。一个val创建的时候必须初始化,因为以后不能被改变。 阅读全文
posted @ 2018-11-10 15:08 TIMLONG 阅读(1602) 评论(0) 推荐(0)
摘要: 在集群上运行spark程序时,rdd的操作都在worker机上,因此输出rdd的元素将在worker机的标准输出上进行,驱动节点上不会运行,故直接才程序中写如下代码 rdd.foreach(println(_)) 并不能产生期望的结果。此时应该先收集数据,再进行打印,即可得到预期结果 rdd.col 阅读全文
posted @ 2018-11-10 15:05 TIMLONG 阅读(1749) 评论(0) 推荐(0)