大数据 - 随笔分类 - 码以致用

Impala笔记

摘要：体系结构 Impala 是一个分布式并行计算数据库引擎，MPP架构 Impala Daemon Impala 的核心组件是 Impala Daemon，在物理上表现为 impalad 进程（1）核心功能在 CDH 5.12/ Impala 2.9 之后的版本，支持将 coordinator 和阅读全文

posted @ 2025-07-01 20:24 码以致用阅读(94) 评论(0) 推荐(0)

Hive笔记

摘要：一、Hive是基于Hadoop的数据仓库。 1、计算把HQL查询通过HQL解析引擎转换为一系列在Hadoop集群上运行的MapReduce作业，易于分析。解释器、编译器、优化器完成HQL查询语句从词法分析、语法分析，编译生成执行计划，优化查询计划的生成。生成的查询计划存储在HDFS中，并在随后由阅读全文

posted @ 2025-07-01 20:19 码以致用阅读(58) 评论(0) 推荐(0)

Calcite执行计划优化

摘要：CBO与RBO并非对立关系，而是基于RBO的拓展 CBO = RBO + Cost Model + Model Iteration，通过代价模型，在一定的时间空间范围内通过动态规划算法来获得最终的执行计划 claicte的优化原理是，它假定如果一个表达式最优，那它的局部也是最优的。成本最优假设利用了阅读全文

posted @ 2024-06-21 17:18 码以致用阅读(140) 评论(0) 推荐(0)

【持续更新】重要FLIP总结

摘要：FLIP-27: Refactor Source Interface 流批一体API 1、解耦SplitEnumerator与SplitReader SplitEnumerator：发现并分配splits（比如files/kafka_partitions） SourceReader：从splits里阅读全文

posted @ 2024-06-21 00:32 码以致用阅读(97) 评论(0) 推荐(0)

【持续更新中】开源贡献记录

摘要：2020.1.24 https://github.com/prestodb/presto/pull/14007 作用：使kudu connector支持kerberos认证，且在续期有效期过了后能自动获取新票据目前：merged 2020.2.4 https://github.com/presto 阅读全文

posted @ 2023-02-06 20:06 码以致用阅读(80) 评论(0) 推荐(0)

实战Flink sql语法改造

摘要：Flink是流计算领域的事实标准，而Flink sql的广泛应用极大地推动了这一标准的确立。在mysql里我们可以很方便地通过show tables from db1 like '%a'直接从上百个库找出db1库a开头的表，但之前flink只支持show tables查出当前库的表，该如何改造呢？阅读全文

posted @ 2023-01-04 10:41 码以致用阅读(521) 评论(0) 推荐(0)

聊聊源码贡献这件大事

摘要：工作七年以来，陆陆续续向社区提交了一些源码贡献，即Pull Request，简称PR。对于一个热爱技术的开发人员来说，能读懂被业界广泛使用的开源框架里的代码，甚至回馈社区，将是一件莫大的荣耀。下面简单聊聊这件大事，可能限于知识水平有些不足或片面的地方，希望多多理解。一、我目前的社区贡献以下列出的阅读全文

posted @ 2021-05-24 17:22 码以致用阅读(686) 评论(0) 推荐(4)

iceberg文件详解

摘要：一、数据内容 t20 ├── data │ ├── 00000-0-9c7ff22e-a767-4b85-91ec-a2771e54c209-00001.parquet │ └── 00000-0-ecd3f21c-1bc0-4cdc-8917-d9a1afe7ce55-00001.parquet 阅读全文

posted @ 2021-05-19 01:35 码以致用阅读(1753) 评论(0) 推荐(0)

Ververica Platform流平台搭建使用

摘要：是一个商用Flink sql平台，基于k8s部署一、安装提前安装好docker、k8s、kubectl、helm git clone --branch release-2.3 https://github.com/ververica/ververica-platform-playground.g 阅读全文

posted @ 2021-05-14 15:02 码以致用阅读(1616) 评论(0) 推荐(0)

Flink集成Iceberg

摘要：Flink: 1.11.0 Iceberg: 0.11.1 hive: 2.3.8 hadoop: 3.2.2 java: 1.8 scala: 2.11 一、下载或编译iceberg-flink-runtime jar包下载 wget https://repo.maven.apache.org/ 阅读全文

posted @ 2021-05-12 11:02 码以致用阅读(984) 评论(0) 推荐(0)

grpc stream剖析

摘要：在grpc里可以指定一个服务器端的流方法。比如流视频传输。不是返回一个响应，而是返回零个或多个响应使用官方python版route guide例子，server端流模式，client端普通模式，经过如下小的修改，对实际的一些行为进行一些探究服务端 i = 0 #新增 def ListFeatur 阅读全文

posted @ 2021-02-02 17:43 码以致用阅读(829) 评论(0) 推荐(0)

Pravega架构小结

摘要：架构开源分布式流存储服务本质是在计算引擎与底层存储间充当解耦层，旨在解决新一代大数据平台在数据存储层上的挑战 1、数据湖 Pravega 提供的 Stream 原语可以避免现有大数据架构中原始数据在多个开源存储搜索产品中移动而产生的数据冗余现象，其在存储层就完成了统一的数据湖（一处存储，多处使用阅读全文

posted @ 2020-08-13 10:42 码以致用阅读(1257) 评论(0) 推荐(0)

Flink之对时间的处理

摘要：window+trigger+watermark处理全局乱序数据，指定窗口上的allowedLateness可以处理特定窗口操作的局部事件时间乱序数据 1、流处理系统中的微批 Flink内部也使用了某种形式的微批处理技术，在shuffle阶段将含有多个事件的缓冲容器通过网络发送，而不是发送单个事件阅读全文

posted @ 2020-07-16 10:15 码以致用阅读(4111) 评论(0) 推荐(0)

一张图说清楚Flink水印和Lateness

摘要：真传一句话，假言万卷书。 Flink使用窗口与水印处理乱序问题，使用Latenss处理延迟问题，二者混合使用可以满足很多复杂场景的需求当Watermark大于窗口结束时间时，会触发窗口内的元素进行计算并缓存起来，随着Watermark增长，在Watermark <窗口结束时间 + Lateness 阅读全文

posted @ 2020-06-04 15:30 码以致用阅读(375) 评论(0) 推荐(0)

Flink kuduSink开发

摘要：1、继承RichSinkFunction （1）首先在构造方式传入kudu的masterAddress地址、默认表名、TableSerializationSchema、KuduTableRowConverter、Properties配置对象（2）重写open方法初始化KuduClient对象操作阅读全文

posted @ 2020-05-26 19:41 码以致用阅读(3047) 评论(0) 推荐(0)

Flink Sink定制开发

摘要：一、KafkaSink 1、按流内容分发到对应topic，隔天自动切换在flink自带的kafka sink实现里，只支持写到固定topic，而我们的kafka2kafka日志处理逻辑要求消息要按照ds字段值写入到对应topic，topic名前缀相同，后面跟ds字段值，需要进行改造具体实现思路如阅读全文

posted @ 2020-04-22 19:25 码以致用阅读(1597) 评论(0) 推荐(0)

Presto实现定时从配置文件读取配置

摘要：使用guava的memoizeWithExpiration方法 ForwardingSystemAccessControl.of(memoizeWithExpiration( () -> { log.info("Refreshing system access control from %s", c 阅读全文

posted @ 2020-04-21 17:17 码以致用阅读(440) 评论(0) 推荐(0)

LDAP与Sentry API使用

摘要：1、Apache Ldap API 持续发展的增强型LDAP API，用于代替JNDI、jLdap、Mozila LDAP等现存的LDAP API，是schema aware的，支持所有的LDAP server 获取用户与用户组间的映射关系核心代码： EntryCursor cursor = co 阅读全文

posted @ 2020-04-21 17:11 码以致用阅读(932) 评论(0) 推荐(0)

Presto压测报告

摘要：一、通过Presto insert到其他数据源的性能 1、压测结果（K是一千，M是一百万）源库源表行数 worker数（每worker 100G内存） tpch -> hive tpch -> es6 tpch -> mysql 耗时（分:秒）速率（rows/s）耗时（分:秒）速率（r 阅读全文

posted @ 2020-04-21 17:09 码以致用阅读(3153) 评论(0) 推荐(0)

PrestoSPI安全扩展

摘要：由于Presto官方文档和谷歌搜索都没有相关的内容，git项目中也没有支持sentry的安全插件扩展，因此只能从源码中寻找答案，在梳理完SPI包的安全相关源码结构后，已实现了一个自定义的安全插件，经验证可正常使用简要总结如下：扩展系统级权限SAC 系统级权限是对Presto支持的所有数据源都有效阅读全文

posted @ 2020-04-21 17:02 码以致用阅读(900) 评论(0) 推荐(0)

码以致用

随笔分类 - 大数据

公告