随笔分类 - 大数据
hadoop、spark相关内容
摘要:体系结构 Impala 是一个分布式并行计算数据库引擎,MPP架构 Impala Daemon Impala 的核心组件是 Impala Daemon,在物理上表现为 impalad 进程 (1)核心功能 在 CDH 5.12/ Impala 2.9 之后的版本,支持将 coordinator 和
阅读全文
摘要:一、Hive是基于Hadoop的数据仓库。 1、计算 把HQL查询通过HQL解析引擎转换为一系列在Hadoop集群上运行的MapReduce作业,易于分析。 解释器、编译器、优化器完成HQL查询语句从词法分析、语法分析,编译生成执行计划,优化查询计划的生成。生成的查询计划存储在HDFS中,并在随后由
阅读全文
摘要:CBO与RBO并非对立关系,而是基于RBO的拓展 CBO = RBO + Cost Model + Model Iteration,通过代价模型,在一定的时间空间范围内通过动态规划算法来获得最终的执行计划 claicte的优化原理是,它假定如果一个表达式最优,那它的局部也是最优的。成本最优假设利用了
阅读全文
摘要:FLIP-27: Refactor Source Interface 流批一体API 1、解耦SplitEnumerator与SplitReader SplitEnumerator:发现并分配splits(比如files/kafka_partitions) SourceReader:从splits里
阅读全文
摘要:2020.1.24 https://github.com/prestodb/presto/pull/14007 作用:使kudu connector支持kerberos认证,且在续期有效期过了后能自动获取新票据 目前:merged 2020.2.4 https://github.com/presto
阅读全文
摘要:Flink是流计算领域的事实标准,而Flink sql的广泛应用极大地推动了这一标准的确立。 在mysql里我们可以很方便地通过show tables from db1 like '%a'直接从上百个库找出db1库a开头的表,但之前flink只支持show tables查出当前库的表,该如何改造呢?
阅读全文
摘要:工作七年以来,陆陆续续向社区提交了一些源码贡献,即Pull Request,简称PR。对于一个热爱技术的开发人员来说,能读懂被业界广泛使用的开源框架里的代码,甚至回馈社区,将是一件莫大的荣耀。下面简单聊聊这件大事,可能限于知识水平有些不足或片面的地方,希望多多理解。 一、我目前的社区贡献 以下列出的
阅读全文
摘要:一、数据内容 t20 ├── data │ ├── 00000-0-9c7ff22e-a767-4b85-91ec-a2771e54c209-00001.parquet │ └── 00000-0-ecd3f21c-1bc0-4cdc-8917-d9a1afe7ce55-00001.parquet
阅读全文
摘要:是一个商用Flink sql平台,基于k8s部署 一、安装 提前安装好docker、k8s、kubectl、helm git clone --branch release-2.3 https://github.com/ververica/ververica-platform-playground.g
阅读全文
摘要:Flink: 1.11.0 Iceberg: 0.11.1 hive: 2.3.8 hadoop: 3.2.2 java: 1.8 scala: 2.11 一、下载或编译iceberg-flink-runtime jar包 下载 wget https://repo.maven.apache.org/
阅读全文
摘要:在grpc里可以指定一个服务器端的流方法。比如流视频传输。不是返回一个响应,而是返回零个或多个响应 使用官方python版route guide例子,server端流模式,client端普通模式,经过如下小的修改,对实际的一些行为进行一些探究 服务端 i = 0 #新增 def ListFeatur
阅读全文
摘要:架构 开源分布式流存储服务 本质是在计算引擎与底层存储间充当解耦层,旨在解决新一代大数据平台在数据存储层上的挑战 1、数据湖 Pravega 提供的 Stream 原语可以避免现有大数据架构中原始数据在多个开源存储搜索产品中移动而产生的数据冗余现象,其在存储层就完成了统一的数据湖(一处存储,多处使用
阅读全文
摘要:window+trigger+watermark处理全局乱序数据,指定窗口上的allowedLateness可以处理特定窗口操作的局部事件时间乱序数据 1、流处理系统中的微批 Flink内部也使用了某种形式的微批处理技术,在shuffle阶段将含有多个事件的缓冲容器通过网络发送,而不是发送单个事件
阅读全文
摘要:真传一句话,假言万卷书。 Flink使用窗口与水印处理乱序问题,使用Latenss处理延迟问题,二者混合使用可以满足很多复杂场景的需求 当Watermark大于窗口结束时间时,会触发窗口内的元素进行计算并缓存起来,随着Watermark增长,在Watermark <窗口结束时间 + Lateness
阅读全文
摘要:1、继承RichSinkFunction (1)首先在构造方式传入kudu的masterAddress地址、默认表名、TableSerializationSchema、KuduTableRowConverter、Properties配置对象 (2)重写open方法 初始化KuduClient对象操作
阅读全文
摘要:一、KafkaSink 1、按流内容分发到对应topic,隔天自动切换 在flink自带的kafka sink实现里,只支持写到固定topic,而我们的kafka2kafka日志处理逻辑要求消息要按照ds字段值写入到对应topic,topic名前缀相同,后面跟ds字段值,需要进行改造 具体实现思路如
阅读全文
摘要:使用guava的memoizeWithExpiration方法 ForwardingSystemAccessControl.of(memoizeWithExpiration( () -> { log.info("Refreshing system access control from %s", c
阅读全文
摘要:1、Apache Ldap API 持续发展的增强型LDAP API,用于代替JNDI、jLdap、Mozila LDAP等现存的LDAP API,是schema aware的,支持所有的LDAP server 获取用户与用户组间的映射关系 核心代码: EntryCursor cursor = co
阅读全文
摘要:一、通过Presto insert到其他数据源的性能 1、压测结果 (K是一千,M是一百万) 源库 源表 行数 worker数(每worker 100G内存) tpch -> hive tpch -> es6 tpch -> mysql 耗时(分:秒) 速率(rows/s) 耗时(分:秒) 速率(r
阅读全文
摘要:由于Presto官方文档和谷歌搜索都没有相关的内容,git项目中也没有支持sentry的安全插件扩展,因此只能从源码中寻找答案,在梳理完SPI包的安全相关源码结构后,已实现了一个自定义的安全插件,经验证可正常使用 简要总结如下: 扩展系统级权限SAC 系统级权限是对Presto支持的所有数据源都有效
阅读全文

浙公网安备 33010602011771号