会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
努力爬呀爬
博客园
首页
新随笔
联系
订阅
管理
2022年2月24日
iceberg合并小文件冲突测试
摘要: 基于iceberg的master分支的9b6b5e0d2(2022-2-9)。 参数说明 1、PARTIAL_PROGRESS_ENABLED(partial-progress.enabled) 默认为 false。该参数能够让合并任务以group为单位做提交,当其中一个group任务失败,可以单独
阅读全文
posted @ 2022-02-24 16:45 努力爬呀爬
阅读(1493)
评论(0)
推荐(0)
2021年11月13日
hudi clustering 数据聚集(三 zorder使用)
摘要: 目前最新的 hudi 版本为 0.9,暂时还不支持 zorder 功能,但 master 分支已经合入了(RFC-28),所以可以自己编译 master 分支,提前体验下 zorder 效果。 环境 1、直接下载 master 分支进行编译,本地使用 spark3,所以使用编译命令: mvn cle
阅读全文
posted @ 2021-11-13 15:40 努力爬呀爬
阅读(819)
评论(0)
推荐(0)
2021年11月12日
hudi clustering 数据聚集(二)
摘要: 小文件合并解析 执行代码: import org.apache.hudi.QuickstartUtils._ import scala.collection.JavaConversions._ import org.apache.spark.sql.SaveMode._ import org.apa
阅读全文
posted @ 2021-11-12 18:27 努力爬呀爬
阅读(786)
评论(1)
推荐(0)
2021年11月11日
hudi clustering 数据聚集(一)
摘要: 概要 数据湖的业务场景主要包括对数据库、日志、文件的分析,而管理数据湖有两点比较重要:写入的吞吐量和查询性能,这里主要说明以下问题: 1、为了获得更好的写入吞吐量,通常把数据直接写入文件中,这种情况下会产生很多小的数据文件。虽然小文件的使用可以增加写入的并行度,且能够并行读取文件以提高读取速度,但会
阅读全文
posted @ 2021-11-11 09:03 努力爬呀爬
阅读(713)
评论(0)
推荐(0)
2021年11月1日
greenplum分布键的hash值计算分析
摘要: greenplum 数据分布策略 greenplum 是一个 MPP 架构的数据库,由一个 master 和多个 segment 组成(还可选配置一个 standby master),其数据会根据设置的分布策略分布到在不同的 segment 上。 在 6 版本中,gp 提供了 3 个策略:随机分布、
阅读全文
posted @ 2021-11-01 14:25 努力爬呀爬
阅读(822)
评论(0)
推荐(0)
2021年10月13日
sarama的消费者组分析、使用
摘要: kafka的go客户端,使用最多的应该是sarama,但以前老的sarama版本不支持消费者组的消费方式,所以大多数人都用sarama-cluster。 后来sarama支持了消费者组的消费方式,sarama-cluster也停止维护了,但网上关于sarama的消费者组的解析很少,且官方的样例很简单
阅读全文
posted @ 2021-10-13 11:34 努力爬呀爬
阅读(11086)
评论(0)
推荐(1)
2019年7月16日
leetcode的Hot100系列--3. 无重复字符的最长子串--滑动窗口
摘要: 可以先想下这两个问题: 1、怎样使用滑动窗口? 2、如何快速的解决字符查重问题? 滑动窗口 可以想象一下有两个指针,一个叫begin,一个叫now 这两个指针就指定了当前正在比较无重复的字符串,当再往后读取一个字符的时候,就需要比较该字符在begin到now之间是否有重复,如果有重复的话,则记录当前
阅读全文
posted @ 2019-07-16 22:26 努力爬呀爬
阅读(238)
评论(0)
推荐(0)
排序--最大堆构造和堆排序(单步查看过程)
摘要: 这里先简单说下最大堆的基本性质: 最大堆一定是完全二叉树 当父节点为 n 时,左孩子为 n 2 + 1,右孩子为 n 2 + 2 当孩子为 n 时,其父节点为: (n 1) / 2 这一点很重要,在后面初始化的时候会用到 父节点大于等于左孩子和右孩子,但左孩子不一定大于右孩子 了解以上基本性质之后,
阅读全文
posted @ 2019-07-16 00:26 努力爬呀爬
阅读(7971)
评论(0)
推荐(0)
2019年7月12日
leetcode的Hot100系列--347. 前 K 个高频元素--hash表+直接选择排序
摘要: 这个看着应该是使用堆排序,但我图了一个简单,所以就简单hash表加选择排序来做了。 使用结构体: 思路: hash表用来存储每个值对应的频率,每读到一个数字,对应的频率就加1。 然后从表中再把这些数据读取出来。 先创建两个长度为k的数组,一个用来记录频率,一个用来记录对应的数值。 读取数据的时候,使
阅读全文
posted @ 2019-07-12 00:44 努力爬呀爬
阅读(272)
评论(0)
推荐(0)
2019年7月10日
leetcode的Hot100系列--64. 最小路径和--权值最小的动态规划
摘要: 如果这个: "leadcode的Hot100系列 62. 不同路径 简单的动态规划" 看懂的话,那这题基本上是一样的, 不同点在于: 1、这里每条路径相当于多了一个权值 2、结论不再固定,而是要比较不同走法哪个权值更小 针对第一点,需要把第一行和第一列的权值做一个累加: 假设这里的权值都是1,则 |
阅读全文
posted @ 2019-07-10 00:03 努力爬呀爬
阅读(449)
评论(0)
推荐(0)
下一页
公告