04 2020 档案
摘要:Spark SQL原理解析前言: "Spark SQL源码剖析(一)SQL解析框架Catalyst流程概述" "Spark SQL源码解析(二)Antlr4解析Sql并生成树" Analysis阶段概述 首先,这里需要引入一个新概念,前面介绍SQL parse阶段,会使用antlr4,将一条SQL语
阅读全文
摘要:Spark SQL原理解析前言: "Spark SQL源码剖析(一)SQL解析框架Catalyst流程概述" 这一次要开始真正介绍Spark解析SQL的流程,首先是从Sql Parse阶段开始,简单点说,这个阶段就是使用Antlr4,将一条Sql语句解析成语法树。 可能有童鞋没接触过antlr4这个
阅读全文
摘要:Spark SQL模块,主要就是处理跟SQL解析相关的一些内容,说得更通俗点就是怎么把一个SQL语句解析成Dataframe或者说RDD的任务。以Spark 2.4.3为例,Spark SQL这个大模块分为三个子模块,如下图所示 其中Catalyst可以说是Spark内部专门用来解析SQL的一个框架
阅读全文
摘要:前情提要 "Scala函数式编程指南(一) 函数式思想介绍" "scala函数式编程(二) scala基础语法介绍" "Scala函数式编程(三) scala集合和函数" "Scala函数式编程(四)函数式的数据结构 上" "Scala函数式编程(四)函数式的数据结构 下" "Scala函数式编程(
阅读全文
摘要:消费组组(Consumer group)可以说是kafka很有亮点的一个设计。传统的消息引擎处理模型主要有两种, 队列模型 ,和 发布 订阅模型 。 队列模型 :早期消息处理引擎就是按照队列模型设计的,所谓队列模型,跟队列数据结构类似,生产者产生消息,就是入队,消费者接收消息就是出队,并删除队列中数
阅读全文

浙公网安备 33010602011771号