1月10日

今天继续学习spark ,进入shell模式命令,

bin/spark-shell --master spark://hadoop102:7077

 会比较慢,相当于打开一个应用程序,所以会很慢

退出的命令是 :quit 

 

 wordcount的demo 在命令行中,这里的结果要在网页的结果中看到,如果要在命令行中看到结果需要xxx.collect  将结果收集到本地

在网页中会有一个逻辑的图示,进行逻辑结构的展示

 

 

1-点是RDD,线是算子,点加线组成面(DAG)

2-在程序运行之前先生成DAG进行优化,优化完以后再进行executor端的执行。DAG在driver端。千万分开执行和资源分配。

3-如果使用foreach方法打印的时候,会在不同的节点中打印自己的结果,但是不能输出到控制台。如果想一次性看到结果,必须使用collect将数据收集到本地。

 

posted @ 2022-01-10 22:23  不咬牙  阅读(89)  评论(0)    收藏  举报