努力爬呀爬

2022年2月24日

摘要：基于iceberg的master分支的9b6b5e0d2（2022-2-9）。参数说明 1、PARTIAL_PROGRESS_ENABLED（partial-progress.enabled）默认为 false。该参数能够让合并任务以group为单位做提交，当其中一个group任务失败，可以单独阅读全文

posted @ 2022-02-24 16:45 努力爬呀爬阅读(1586) 评论(0) 推荐(0)

2021年11月13日

hudi clustering 数据聚集（三 zorder使用）

摘要：目前最新的 hudi 版本为 0.9，暂时还不支持 zorder 功能，但 master 分支已经合入了（RFC-28)，所以可以自己编译 master 分支，提前体验下 zorder 效果。环境 1、直接下载 master 分支进行编译，本地使用 spark3，所以使用编译命令： mvn cle 阅读全文

posted @ 2021-11-13 15:40 努力爬呀爬阅读(844) 评论(0) 推荐(0)

2021年11月12日

hudi clustering 数据聚集（二）

摘要：小文件合并解析执行代码： import org.apache.hudi.QuickstartUtils._ import scala.collection.JavaConversions._ import org.apache.spark.sql.SaveMode._ import org.apa 阅读全文

posted @ 2021-11-12 18:27 努力爬呀爬阅读(802) 评论(1) 推荐(0)

2021年11月11日

hudi clustering 数据聚集（一）

摘要：概要数据湖的业务场景主要包括对数据库、日志、文件的分析，而管理数据湖有两点比较重要：写入的吞吐量和查询性能，这里主要说明以下问题： 1、为了获得更好的写入吞吐量，通常把数据直接写入文件中，这种情况下会产生很多小的数据文件。虽然小文件的使用可以增加写入的并行度，且能够并行读取文件以提高读取速度，但会阅读全文

posted @ 2021-11-11 09:03 努力爬呀爬阅读(737) 评论(0) 推荐(0)

2021年11月1日

greenplum分布键的hash值计算分析

摘要： greenplum 数据分布策略 greenplum 是一个 MPP 架构的数据库，由一个 master 和多个 segment 组成（还可选配置一个 standby master），其数据会根据设置的分布策略分布到在不同的 segment 上。在 6 版本中，gp 提供了 3 个策略：随机分布、阅读全文

posted @ 2021-11-01 14:25 努力爬呀爬阅读(871) 评论(0) 推荐(0)

2021年10月13日

sarama的消费者组分析、使用

摘要： kafka的go客户端，使用最多的应该是sarama，但以前老的sarama版本不支持消费者组的消费方式，所以大多数人都用sarama-cluster。后来sarama支持了消费者组的消费方式，sarama-cluster也停止维护了，但网上关于sarama的消费者组的解析很少，且官方的样例很简单阅读全文

posted @ 2021-10-13 11:34 努力爬呀爬阅读(11226) 评论(0) 推荐(1)

2019年7月16日

leetcode的Hot100系列--3. 无重复字符的最长子串--滑动窗口

摘要：可以先想下这两个问题： 1、怎样使用滑动窗口？ 2、如何快速的解决字符查重问题？滑动窗口可以想象一下有两个指针，一个叫begin，一个叫now 这两个指针就指定了当前正在比较无重复的字符串，当再往后读取一个字符的时候，就需要比较该字符在begin到now之间是否有重复，如果有重复的话，则记录当前阅读全文

posted @ 2019-07-16 22:26 努力爬呀爬阅读(272) 评论(0) 推荐(0)

排序--最大堆构造和堆排序（单步查看过程）

摘要：这里先简单说下最大堆的基本性质：最大堆一定是完全二叉树当父节点为 n 时，左孩子为 n 2 + 1，右孩子为 n 2 + 2 当孩子为 n 时，其父节点为： (n 1) / 2 这一点很重要，在后面初始化的时候会用到父节点大于等于左孩子和右孩子，但左孩子不一定大于右孩子了解以上基本性质之后，阅读全文

posted @ 2019-07-16 00:26 努力爬呀爬阅读(8018) 评论(0) 推荐(0)

2019年7月12日

leetcode的Hot100系列--347. 前 K 个高频元素--hash表+直接选择排序

摘要：这个看着应该是使用堆排序，但我图了一个简单，所以就简单hash表加选择排序来做了。使用结构体: 思路： hash表用来存储每个值对应的频率，每读到一个数字，对应的频率就加1。然后从表中再把这些数据读取出来。先创建两个长度为k的数组，一个用来记录频率，一个用来记录对应的数值。读取数据的时候，使阅读全文

posted @ 2019-07-12 00:44 努力爬呀爬阅读(303) 评论(0) 推荐(0)

2019年7月10日

leetcode的Hot100系列--64. 最小路径和--权值最小的动态规划

摘要：如果这个： "leadcode的Hot100系列 62. 不同路径简单的动态规划" 看懂的话，那这题基本上是一样的，不同点在于： 1、这里每条路径相当于多了一个权值 2、结论不再固定，而是要比较不同走法哪个权值更小针对第一点，需要把第一行和第一列的权值做一个累加：假设这里的权值都是1，则 | 阅读全文

posted @ 2019-07-10 00:03 努力爬呀爬阅读(459) 评论(0) 推荐(0)

公告