2018年8月22日

摘要: Spark sql 对SQL语句的处理,先将SQL语句进行解析(parse)形成一个tree,然后使用Rule对Tree进行绑定,优化等处理过程,通过模式匹配对不同类型的节点采用不同操作。查询优化器是Catalyst,它负责处理查询语句的解析,绑定,优化和生成物理计划等过程,Catalyst是Spa 阅读全文

posted @ 2018-08-22 10:09 打杂滴 阅读(542) 评论(0) 推荐(0)

摘要: dataframe以RDD为基础的分布式数据集,与RDD的区别是,带有Schema元数据,即DF所表示的二维表数据集的每一列带有名称和类型,好处:精简代码;提升执行效率;减少数据读取; 如果不配置spark.deploy.recoveryMode选项为ZOOKEEPER,那么集群的所有运行数据在Ma 阅读全文

posted @ 2018-08-22 09:53 打杂滴 阅读(338) 评论(0) 推荐(0)


博客园  ©  2004-2025
浙公网安备 33010602011771号 浙ICP备2021040463号-3