摘要: 真传一句话,假言万卷书。 Flink使用窗口与水印处理乱序问题,使用Latenss处理延迟问题,二者混合使用可以满足很多复杂场景的需求 当Watermark大于窗口结束时间时,会触发窗口内的元素进行计算并缓存起来,随着Watermark增长,在Watermark <窗口结束时间 + Lateness 阅读全文
posted @ 2020-06-04 15:30 码以致用 阅读(374) 评论(0) 推荐(0)
摘要: 1、继承RichSinkFunction (1)首先在构造方式传入kudu的masterAddress地址、默认表名、TableSerializationSchema、KuduTableRowConverter、Properties配置对象 (2)重写open方法 初始化KuduClient对象操作 阅读全文
posted @ 2020-05-26 19:41 码以致用 阅读(3044) 评论(0) 推荐(0)
摘要: 一、KafkaSink 1、按流内容分发到对应topic,隔天自动切换 在flink自带的kafka sink实现里,只支持写到固定topic,而我们的kafka2kafka日志处理逻辑要求消息要按照ds字段值写入到对应topic,topic名前缀相同,后面跟ds字段值,需要进行改造 具体实现思路如 阅读全文
posted @ 2020-04-22 19:25 码以致用 阅读(1588) 评论(0) 推荐(0)
摘要: 使用guava的memoizeWithExpiration方法 ForwardingSystemAccessControl.of(memoizeWithExpiration( () -> { log.info("Refreshing system access control from %s", c 阅读全文
posted @ 2020-04-21 17:17 码以致用 阅读(438) 评论(0) 推荐(0)
摘要: 1、Apache Ldap API 持续发展的增强型LDAP API,用于代替JNDI、jLdap、Mozila LDAP等现存的LDAP API,是schema aware的,支持所有的LDAP server 获取用户与用户组间的映射关系 核心代码: EntryCursor cursor = co 阅读全文
posted @ 2020-04-21 17:11 码以致用 阅读(929) 评论(0) 推荐(0)
摘要: 一、通过Presto insert到其他数据源的性能 1、压测结果 (K是一千,M是一百万) 源库 源表 行数 worker数(每worker 100G内存) tpch -> hive tpch -> es6 tpch -> mysql 耗时(分:秒) 速率(rows/s) 耗时(分:秒) 速率(r 阅读全文
posted @ 2020-04-21 17:09 码以致用 阅读(3142) 评论(0) 推荐(0)
摘要: 由于Presto官方文档和谷歌搜索都没有相关的内容,git项目中也没有支持sentry的安全插件扩展,因此只能从源码中寻找答案,在梳理完SPI包的安全相关源码结构后,已实现了一个自定义的安全插件,经验证可正常使用 简要总结如下: 扩展系统级权限SAC 系统级权限是对Presto支持的所有数据源都有效 阅读全文
posted @ 2020-04-21 17:02 码以致用 阅读(899) 评论(0) 推荐(0)
摘要: 使用函数式编程、提取公有逻辑等概念,提高开发和维护效率 阅读全文
posted @ 2018-10-11 10:53 码以致用 阅读(1204) 评论(2) 推荐(1)
摘要: 一、何为一个好的olap框架? 框架大概分为两种: (1)底层技术框架,专注于抽象底层技术,如网络通信netty、中间件kafka等 (2)开发人员框架,专注于提高开发效率,如spring的面向切面和依赖注入。但这只是面向编程语言开发人员的,其实还应该有olap框架,面向数据业务开发人员 olap框 阅读全文
posted @ 2018-07-17 12:46 码以致用 阅读(1170) 评论(0) 推荐(0)
摘要: 一、概念面向块的非阻塞IO系统。由通道、缓冲和Selector实现,通道传输数据,缓冲暂存和操作数据,Selector支持单线程操作多缓冲(1)优势:• NIO有缓冲功能,通过使用map方法可以直接将“一块数据”映射到内存中,比较高效。FileChannel的map方法返回MappedByteBuf 阅读全文
posted @ 2017-01-10 09:04 码以致用 阅读(457) 评论(0) 推荐(0)