1月10日
今天继续学习spark ,进入shell模式命令,
bin/spark-shell --master spark://hadoop102:7077
会比较慢,相当于打开一个应用程序,所以会很慢
退出的命令是 :quit

wordcount的demo 在命令行中,这里的结果要在网页的结果中看到,如果要在命令行中看到结果需要xxx.collect 将结果收集到本地
在网页中会有一个逻辑的图示,进行逻辑结构的展示

1-点是RDD,线是算子,点加线组成面(DAG)
2-在程序运行之前先生成DAG进行优化,优化完以后再进行executor端的执行。DAG在driver端。千万分开执行和资源分配。
3-如果使用foreach方法打印的时候,会在不同的节点中打印自己的结果,但是不能输出到控制台。如果想一次性看到结果,必须使用collect将数据收集到本地。
浙公网安备 33010602011771号