随笔分类 -  dremio

dremio
dremio arp BaseTestQuery 类windows 系统问题
摘要:对于开发的dremio arp 扩展,我们很多时候需要进行测试,官方是提供了一个BaseTestQuery的类,可以方便的编写测试但是此类默认会创建hadoop 相关的东西,使用起来还是很费事的,一般我们开发jdbc arp 扩展的时候是不会使用hadoop的所以应该禁用,参考官方修改了一个去掉ha 阅读全文

posted @ 2022-03-04 21:46 荣锋亮 阅读(51) 评论(0) 推荐(0)

dremio 内置的一些默认配置参数
摘要:参考代码定义 sabot/kernel/src/main/java/com/dremio/exec/ExecConstants.java其中定义了不少关于dremio 执行引擎的一个配置参数,有部分可以结合apache drill 学习 说明 dremio 官方文档不是很全,很多东西可以结合源码以及 阅读全文

posted @ 2022-03-04 21:41 荣锋亮 阅读(74) 评论(0) 推荐(0)

dremio 的ArpDialect 简单介绍
摘要:dremio 的ArpDialect 让我们可以直接基于yaml 文件配置sql 类型以及处理,可以很大程度上简单jdbc 存储插件的开发 核心上还都是扩展的apache calcite sql 方言 核心部分 参考代码 截取了部分,同时基于yaml 处理了ArpTypeMapper,包含了不少类型 阅读全文

posted @ 2022-03-04 00:10 荣锋亮 阅读(53) 评论(0) 推荐(0)

dremio jdbc arp 扩展包装以及加载处理
摘要:如果按照官方直接提供的jdbc 存储插件进行jdbc驱动开发是很痛苦的,好多问题需要解决 还好官方抽象了arp 开发模式,大大简化了我们的处理,而且很灵活,很简单 参考处理 创建调用链 以下是一个添加arp 的处理流程 stack com.dremio.exec.store.jdbc.conf.Jd 阅读全文

posted @ 2022-03-03 23:25 荣锋亮 阅读(91) 评论(0) 推荐(0)

dremio 社区版JdbcStoragePlugin 简单说明
摘要:目前来说dremio JdbcStoragePlugin 是没有开源的如果需要学习就需要通过反编译的手段,目前来说 参考类图 从下图可以看出jdbcstorageplugin 也是依赖storageplugin开发的,扩展了SupportsListingDatasets以及SupportsExter 阅读全文

posted @ 2022-03-03 21:12 荣锋亮 阅读(114) 评论(0) 推荐(0)

dremio 社区版本scheduler 任务池加载处理机制简单说明
摘要:dremio 当前发行版本包含了已给社区版本的调度,此包的加载还是比较有意思的 参考处理机制 TaskPoolInitializer start 中会进行taskpool 的创建 @Override public void start() throws Exception { final TaskP 阅读全文

posted @ 2022-03-03 00:17 荣锋亮 阅读(73) 评论(0) 推荐(0)

dremio 社区版目前依赖的一些闭源包
摘要:dremio 并不是100%开源的,其中就包含一些以dremio-ce 开头的包,目前这些包是在构建阶段打包进去的 但是这些包还是比较重要的,比如jdbc,es,kernel 以及scheduler 参考清单 基于20.1.0 版本的 dremio-ce-elasticsearch-plugin-2 阅读全文

posted @ 2022-03-02 20:51 荣锋亮 阅读(284) 评论(0) 推荐(0)

dremio 源码分析学习的几个方便工具
摘要:很多时候我们需要开发自己的dremio 扩展(jdbc arp 扩展,存储扩展,格式扩展),dremio 代码相对是比较多的学习起来还是不好弄的,但是我们可以结合一些工具简化我们代码的问题 可选工具 arthas 使用此工具可以很好的了解调用链(方便对于调用链分析) jprofiler 很多时候我们 阅读全文

posted @ 2022-03-02 18:18 荣锋亮 阅读(250) 评论(0) 推荐(0)

dremio CTAS 以及DROP 功能简单说明
摘要:dremio 对于文件系统以及文件存储相关的是支持CTAS 以及DROP操作的,而且这个功能很好扩展 可修改存储扩展接口定义 从下图可以看出,对于可变存储,也是继承自StoragePlugin,只是扩展了自己的方法,包含了 不少数据修改的操作,对于CTAS 以及DROP 就是基于此能力提供的 s3 阅读全文

posted @ 2022-03-02 13:15 荣锋亮 阅读(116) 评论(0) 推荐(0)

dremio 社区flight 格式化扩展说明
摘要:实际上代码来自一个老项目,现在dremio 的变动还是很大的,项目是运行不起来的,但是还是很值得学习参考的 开发说明 formation 是基于dremio 3.0 版本,特别老的,,此版本对于reader 以及writer的处理还是很复杂的,代码量很大, 详细的可以参考代码,开发机制相对有点复杂, 阅读全文

posted @ 2022-03-02 13:11 荣锋亮 阅读(48) 评论(0) 推荐(0)

dremio arrow flight 协议server实现——DremioFlightProducer代码简单介绍
摘要:DremioFlightProducer 包含了dremio 关于arrow flight 实现的核心部分 FlightProducer 接口定义 对于producer 的实现主要是实现 FlightProducer,包含的方法如下 方法代表的意义 dremio 对于FlightProducer的实 阅读全文

posted @ 2022-03-01 18:44 荣锋亮 阅读(374) 评论(0) 推荐(0)

dremio arrow flight 协议实现——简单说明
摘要:dremio是一直在推广arrow flight 的,很早dremio 就已经直接支持了,以下是简单的说明下具体的参考实现 arrow flight 协议实现要求 dremio 参考集成 (此图属于客户端的rpc 访问关系) 代码结构 dremio 对于arrow flight 的实现是开发了一个标 阅读全文

posted @ 2022-03-01 11:56 荣锋亮 阅读(572) 评论(0) 推荐(0)

flightsql apache arrow sql 扩展
摘要:flightsql 可以极大的提示列式数据库的查询性能,目前dremio 已经支持了flight rpc 了,目前稳定版本0.7 发布官方已经包含了一些代码示例了,还是值得学习的 参考玩法 集成 参考流程 说明 dremio 同时提供了不少介绍,同时性能对比图,性能提升是很明显的,预计越来越多的sq 阅读全文

posted @ 2022-02-28 22:55 荣锋亮 阅读(371) 评论(0) 推荐(0)

dremio job 处理流程参考
摘要:内容来自官方文档,可以了解dremio对于job 的处理 参考图 流程图 说明 上图还是比较有意义的,可以了解dremio内部的一些处理机制,以及状态转换,同时官方文档也包含了job的性能参数 参考资料 https://docs.dremio.com/cloud/querying-data/jobs 阅读全文

posted @ 2022-02-26 14:51 荣锋亮 阅读(78) 评论(0) 推荐(0)

dremio cloud 分层datasets 实践
摘要:内容来自官方文档,主要是一种玩法 流程 底层或者第一层,主要包含物理数据集 第二层是虚拟数据集,属于一个基于上层进行了简单的数据加工处理(类型转换,字段重明),同时提供一些安全控制 第三层,用户进行数据的join 以及其他昂贵操作,此层属于数据密集操作,一般会包含数据反射的添加(原始反射以及聚合反射 阅读全文

posted @ 2022-02-26 14:33 荣锋亮 阅读(71) 评论(0) 推荐(0)

dremio cloud 参考说明
摘要:最近dremio 官方网站调整了,ui 看着舒服多了,同时也提供了cloud的介绍 参考架构 从机制上与snowflake 比较类似 dremio cloud 包含的对象 一个tree ,维护dremio 的基础数据以及vds,datasource 说明 dremio cloud 看着还是很强大的, 阅读全文

posted @ 2022-02-26 14:21 荣锋亮 阅读(76) 评论(0) 推荐(0)

dremio yarn 资源调度配置简单说明
摘要:以前简单说过一些关于yarn 运行的,对于在yarn 资源调度框架运行,dremio 需要的配置还是比较多的## 配置简单说明 配置需要三大步骤,hadoop配置,dremio runtime 配置,yarn 调度资源配置,以下主要说明关于dremio 相关的 协调节点 services: { co 阅读全文

posted @ 2022-02-26 11:44 荣锋亮 阅读(78) 评论(0) 推荐(0)

dremio yarn 资源调度
摘要:dremio 是支持基于yarn 进行资源调度管理的,还是比较强大的 参考架构 部署简单说明 协调节点部署在边缘,对于执行节点通过节点进行配置yarn 资源的处理,dremio 会依赖hadoop 的数据卷进行cahce 以及split 处理同时dremio 实现了watchdog 进行资源的清理( 阅读全文

posted @ 2022-02-25 21:12 荣锋亮 阅读(76) 评论(0) 推荐(0)

dremio 查询sql 执行参考流程
摘要:以下只列出部分关于sql 处理的调用链,方便学习以及开发自己的扩展 sql 查询流程 这个是一个关于后台反射的处理过程 schema 获取的 参考开发处理 比如我们需要自己开发一个支持jdbc 驱动的arp 扩展,参考流程 (以下几个函数是我们需要实现的)很多时候不见得就必须通过informatio 阅读全文

posted @ 2022-02-24 19:49 荣锋亮 阅读(116) 评论(0) 推荐(0)

dremio 连接gitbase
摘要:dremio 官方自带的驱动是不能直接连接gitbase的(因为使用了mariadb mysql 驱动的问题),以前我基于官方arp 开发了一个基于mysql 驱动的arp 扩展,对于doris 以及oceanbase 的支持都是比较好的,今天刚好测试了下gitbase的 发现也是可以的,理论上do 阅读全文

posted @ 2022-02-21 20:03 荣锋亮 阅读(57) 评论(0) 推荐(0)

导航