公告

2018年8月22日

spark sql运行原理

摘要： Spark sql 对SQL语句的处理，先将SQL语句进行解析（parse）形成一个tree,然后使用Rule对Tree进行绑定,优化等处理过程，通过模式匹配对不同类型的节点采用不同操作。查询优化器是Catalyst,它负责处理查询语句的解析，绑定，优化和生成物理计划等过程，Catalyst是Spa 阅读全文

posted @ 2018-08-22 10:09 打杂滴阅读(544) 评论(0) 推荐(0)

spark基础知识介绍2

摘要： dataframe以RDD为基础的分布式数据集，与RDD的区别是，带有Schema元数据，即DF所表示的二维表数据集的每一列带有名称和类型，好处：精简代码；提升执行效率；减少数据读取; 如果不配置spark.deploy.recoveryMode选项为ZOOKEEPER，那么集群的所有运行数据在Ma 阅读全文

posted @ 2018-08-22 09:53 打杂滴阅读(341) 评论(0) 推荐(0)

努力，奋斗

公告

2018年8月22日

spark sql运行原理

spark基础知识介绍2