摘要: Spark SQL(6) OptimizedPlan 在这一步spark sql主要应用一些规则,优化生成的Resolved Plan,这一步涉及到的有Optimizer。 之前介绍在sparksession实例化的是会实例化sessionState,进而确定QueryExecution、Analy 阅读全文
posted @ 2020-07-26 17:03 刘姥爷观园子 阅读(369) 评论(0) 推荐(0) 编辑
摘要: Spark SQL(5) CacheManage 在spark sql的analyzed plan 生成之后,会经过一步withCachedData的操作,其实就是根据对logicalplan的缓存,如果logicalPlan的查询结果相同则会替换相对应的节点。这步发生在QueryExecution 阅读全文
posted @ 2020-07-26 16:38 刘姥爷观园子 阅读(352) 评论(0) 推荐(0) 编辑
摘要: Spark Sql(4)-Unresolved Plan到Analyzed Plan 在第三篇总结了Unresolved Plan的生成过程,在此之后就是将其转换为Analyzed Plan。这这一步主要涉及到QueryExecution、Analyzer、catalog等。 spark.sql() 阅读全文
posted @ 2020-07-26 16:24 刘姥爷观园子 阅读(450) 评论(0) 推荐(0) 编辑
摘要: Spark SQL Parser到Unresolved LogicPlan Spark SQL Parser简单来说就是将sql语句解析成为算子树的过程,在这个过程中,spark sql采用了antlr4来完成。 当执行spark.sql()方法时,会调用 Dataset.ofRows(self, 阅读全文
posted @ 2020-07-26 14:34 刘姥爷观园子 阅读(393) 评论(0) 推荐(0) 编辑
摘要: 本文主要简述InternalRow、TreeNode及其子类。 一、InternalRow 在Spark SQL的内部实现中,InternalRow就是用来表示一行行数据的,也就是说在物理计划执行的阶段,Spark SQL转换和操作的都是RDD[InternalRow]。 其UML类图如下: 其中: 阅读全文
posted @ 2020-07-26 11:47 刘姥爷观园子 阅读(750) 评论(0) 推荐(0) 编辑
摘要: Spark SQL简述 Spark SQL在Spark全家桶中扮演着很重要的角色,本文主要从参考的书籍和自己的理解尝试着总结下Spark SQL(2.3.2),也算是个笔记。先来个网上的图片,看看Spark SQL的架构是怎么样的。 Spark sql主要步骤设计逻辑计划,然后物理计划之后会将物理计 阅读全文
posted @ 2020-07-25 23:25 刘姥爷观园子 阅读(273) 评论(0) 推荐(0) 编辑
摘要: 简述 本文记录logstash的output配置为kafka的过程。这里是简单的例子,输入为stdin,本文主要目的是为了记录在这次配置过程中遇到的问题和解决的过程及总结。 关于kafka集群的搭建可以参考:https://www.cnblogs.com/ldsggv/p/11010497.html 阅读全文
posted @ 2019-06-12 18:03 刘姥爷观园子 阅读(11209) 评论(0) 推荐(1) 编辑
摘要: 本文记录搭建kafka搭建过程。 一、硬件机器介绍 192.168.183.195 master-node 192.168.183.194 data-node1 192.168.183.196 data-node2 二、集群搭建 master-node操作如下: 下载kafka包 wget http 阅读全文
posted @ 2019-06-12 16:32 刘姥爷观园子 阅读(301) 评论(0) 推荐(0) 编辑
摘要: 本文仅记录zookeeper集群搭建的过程,留待日后查看、使用。 一、硬件机器: 192.168.183.195 master-node 192.168.183.194 data-node1 192.168.183.196 data-node2 二、集群搭建 在master-node机器上进行如下操 阅读全文
posted @ 2019-06-11 21:28 刘姥爷观园子 阅读(155) 评论(0) 推荐(0) 编辑
摘要: 在spark启动之后,worker和master注册通信之后,在进入用户提交app中,new SparkContext之后就会在worker上分配exectors了。 首先在sparkContext中,会先创建和启动TaskScheduler和DAGSchedule 在创建TaskScheduler 阅读全文
posted @ 2018-08-17 20:35 刘姥爷观园子 阅读(736) 评论(0) 推荐(0) 编辑