大数据从业者FelixZh

2022年10月29日

摘要：每一种引擎有其优势的地方，如何选择适合自己业务的流计算引擎成了一个由来已久的话题。除了比较各个引擎提供的不同的功能矩阵之外，性能是一个无法绕开的评估因素。基准测试（benchmark）就是用来评估系统性能的一个重要和常见的过程。 01 背景随着数据时效性对企业的精细化运营越来越重要，“实时即未来” 阅读全文

posted @ 2022-10-29 19:37 大数据从业者FelixZh 阅读(884) 评论(0) 推荐(0)

Flink性能测试case案例

摘要：在我们做测试之前，调研了一些已有的大数据平台性能测试报告，比如，雅虎的Streaming-benchmarks，或者Intel的HiBench等等。除此之外，还有很多的论文也从不同的角度对分布式计算平台进行了测试。虽然这些测试case各有不同的侧重点，但他们都用到了同样的两个指标，即吞吐和延迟。吞吐阅读全文

posted @ 2022-10-29 19:25 大数据从业者FelixZh 阅读(1433) 评论(0) 推荐(0)

2022年10月14日

Keeping Multiple Databases in Sync Using Kafka Connect and CDC

摘要： BRIJESH JAGGI SEP 20, 2022 Microservices architectures have now been widely adopted among developers, and with a great degree of success. However, dra 阅读全文

posted @ 2022-10-14 23:04 大数据从业者FelixZh 阅读(232) 评论(0) 推荐(0)

2022年10月13日

Keeping Multiple Databases in Sync Using Kafka Connect and CDC

摘要： SEP 20, 2022 Microservices architectures have now been widely adopted among developers, and with a great degree of success. However, drawbacks do exis 阅读全文

posted @ 2022-10-13 15:21 大数据从业者FelixZh 阅读(129) 评论(0) 推荐(0)

2022年9月29日

一种Hudi on Flink动态同步元数据变化的方法

摘要：一、背景一个需求，需要同步MySQL数据到Hive，包括DDL与DML，所以需要动态同步元数据变化。二、官方Schema Evolution例子从Hudi官方文档Schema Evolution(https://hudi.apache.org/docs/next/schema_evolutio 阅读全文

posted @ 2022-09-29 10:33 大数据从业者FelixZh 阅读(1272) 评论(0) 推荐(0)

2022年9月17日

Curator处理zookeeper会话过期session expired

摘要： 1、什么是zookeeper的会话过期？通常使用zookeeper集群模式，client和zookeeper集群(3个实例)建立一个会话session。所谓session即client随机与其中一个zk provider建立的链接，并且互发心跳heartbeat。 zookeeper集群负责管理阅读全文

posted @ 2022-09-17 16:46 大数据从业者FelixZh 阅读(1759) 评论(0) 推荐(0)

zookeeper所有超时异常全解析

摘要： ZooKeeper的超时异常包括两种： 1）客户端的readTimeout导致连接丢失。 2）服务端会话超时sessionTimeout导致客户端连接失效。客户端的readTimeout导致连接丢失 ZooKeeper客户端的readTimeout无法显示设置，根据会话超时时间计算得来： 1. 当阅读全文

posted @ 2022-09-17 15:49 大数据从业者FelixZh 阅读(1483) 评论(0) 推荐(0)

2022年7月4日

如何停止CLOSE_WAIT端口：How do I remove a CLOSE_WAIT socket connection

摘要： 104 56 I have written a small program that interacts with a server on a specific port. The program works fine, but: Once the program terminated unexpe 阅读全文

posted @ 2022-07-04 19:47 大数据从业者FelixZh 阅读(598) 评论(0) 推荐(0)

HttpServer：JDK 内置的轻量级 HTTP 服务器

摘要： 1. 概述官方https://docs.oracle.com/javase/9/docs/api/com/sun/net/httpserver/package-summary.html HttpServer 是 JDK 1.6 以后内置的一个轻量级 HTTP 服务器（在 rt.jar 包中的 co 阅读全文

posted @ 2022-07-04 14:53 大数据从业者FelixZh 阅读(4514) 评论(0) 推荐(0)

2022年6月24日

Caused by: com.typesafe.config.ConfigException$UnresolvedSubstitution: reference.conf @ jar:file:/home/FlinkIdeaDemo-1.0.jar!/reference.conf: 875: Could not resolve substitution to a value:

摘要： Caused by: com.typesafe.config.ConfigException$UnresolvedSubstitution: reference.conf @ jar:file:/home/FlinkIdeaDemo-1.0.jar!/reference.conf: 875: Cou 阅读全文

posted @ 2022-06-24 16:26 大数据从业者FelixZh 阅读(538) 评论(0) 推荐(0)

2022年6月22日

TPC-DS tools生成数据：ERROR： Failed to open output file！ File print.c Line: 490

摘要：生成数据的目录需要提前创建好 [root@felixzh tools]# mkdir /home/my_data_1G 阅读全文

posted @ 2022-06-22 17:18 大数据从业者FelixZh 阅读(214) 评论(0) 推荐(0)

2022年6月1日

Flink KeyBy分布不均匀问题及解决方法

摘要：问题现象当Key数量较少时，Flink流执行KeyBy()，并且设置的并行度setParallelism()不唯一时，会出现分到不同task上的key数量不均匀的情况，即：某些subtask没有分到数据，但是某些subtask分到了较多的key对应的数据 Key数量较大时，不容易出现这类不均匀的阅读全文

posted @ 2022-06-01 22:39 大数据从业者FelixZh 阅读(4076) 评论(0) 推荐(1)

2022年5月27日

ClassNotFoundException和NoClassDefFoundError

摘要：最近工作中发现老是有同事遇到NoClassDefFoundError以及ClassNotFoundException这两种异常，很对人对此比较困惑，于是研究了一下并整理了此文档，希望对大家有所帮助。ClassNotFoundException这个比较好理解，就是找不到类。其直接原因是：当应用调用类的阅读全文

posted @ 2022-05-27 16:59 大数据从业者FelixZh 阅读(1112) 评论(0) 推荐(0)

2022年5月24日

HBase rowkey与预分区知识点

摘要：一、引言 HBase其存储和读写的高性能，作为Nosql数据库的一员，HBase查询只能通过其Rowkey来查询(Rowkey用来表示唯一一行记录)，Rowkey设计的优劣直接影响读写性能。HBase中的数据是按照Rowkey的ASCII字典顺序进行全局排序的,有伙伴可能对ASCII字典序印象不够深阅读全文

posted @ 2022-05-24 19:54 大数据从业者FelixZh 阅读(1696) 评论(0) 推荐(0)

2022年5月19日

gradle：secure protocol (like HTTPS) or allow insecure protocols

摘要：最近在编译cruise-control-2.5.92，gradle提示 Using insecure protocols with repositories, without explicit opt-in, has been deprecated. This is scheduled to be 阅读全文

posted @ 2022-05-19 10:54 大数据从业者FelixZh 阅读(2264) 评论(0) 推荐(0)

2022年5月14日

Configuring Kerberos with OpenLDAP back-end

摘要： Configuring Kerberos with OpenLDAP back-end Make sure the LDAP server is using local authentication (ldapi://) or TLS (ldaps). See https://www.openlda 阅读全文

posted @ 2022-05-14 09:17 大数据从业者FelixZh 阅读(135) 评论(0) 推荐(0)

Kerberos and LDAP

摘要： Kerberos supports a few database backends. The default one is what we have been using so far, called db2. The DB Types documentation shows all the opt 阅读全文

posted @ 2022-05-14 09:16 大数据从业者FelixZh 阅读(184) 评论(0) 推荐(0)

2022年4月22日

布隆过滤器BloomFilter概念、原理、实现

摘要： BitMap 现代计算机用二进制（bit，位）作为信息的基础单位，1 个字节等于 8 位。许多开发语言都提供了操作位的功能，合理地使用位能够有效地提高内存使用率和开发效率。 Bit-map 的基本思想就是用一个 bit 位来标记某个元素对应的 value，而 key 即是该元素。由于采用了 bit 阅读全文

posted @ 2022-04-22 09:42 大数据从业者FelixZh 阅读(1099) 评论(0) 推荐(0)

2022年4月21日

哈希函数与哈希冲突

摘要：什么是 Hash Hash（哈希），又称“散列”。在某种程度上，散列是与排序相反的一种操作，排序是将集合中的元素按照某种方式比如字典顺序排列在一起。而散列通过计算哈希值，打破元素之间原有的关系，使集合中的元素按照散列函数的分类进行排列。在介绍一些集合时，我们总强调需要重写某个类的 equlas() 阅读全文

posted @ 2022-04-21 20:26 大数据从业者FelixZh 阅读(311) 评论(0) 推荐(0)

Bloom Filters by Example

摘要： Bloom filter 是一个数据结构，它可以用来判断某个元素是否在集合内，具有运行快速，内存占用小的特点。而高效插入和查询的代价就是，Bloom Filter 是一个基于概率的数据结构：它只能告诉我们一个元素绝对不在集合内或可能在集合内 Bloom filter 的基础数据结构是一个比特向量阅读全文

posted @ 2022-04-21 20:01 大数据从业者FelixZh 阅读(100) 评论(0) 推荐(0)

Troubleshooting Apache Flink with Byteman

摘要： Introduction What would you do if you need to see more details of some Apache Flink application logic at runtime, but there's no logging in that code 阅读全文

posted @ 2022-04-21 16:06 大数据从业者FelixZh 阅读(110) 评论(0) 推荐(0)

2022年4月19日

How to Configure RocksDB Logging for Advanced Troubleshooting

摘要： Question RocksDB's LOG file comes in handy when troubleshooting Flink with RocksDB. How can I configure RocksDB logging? Answer Note: This section app 阅读全文

posted @ 2022-04-19 19:49 大数据从业者FelixZh 阅读(95) 评论(0) 推荐(0)

Apache Flink - is it possible to evenly distribute slot sharing groups?

摘要： We have a pipeline with operations, split into 2 workloads - Source -> Transform are in a first group and are CPU-intensive workloads, they are put in 阅读全文

posted @ 2022-04-19 11:14 大数据从业者FelixZh 阅读(454) 评论(0) 推荐(0)

2022年4月9日

Apache Hudi的索引类型及应用场景

摘要： Apache Hudi使用索引来定位更删操作所在的文件组。对于Copy-On-Write表，索引能加快更删的操作，因为避免了通过连接整个数据集来决定哪些文件需要重写。对于Merge-On-Read表，这个设计，对于任意给定的基文件，能限定要与其合并的记录数量。具体地，一个给定的基文件只需要和其所包含阅读全文

posted @ 2022-04-09 10:05 大数据从业者FelixZh 阅读(1400) 评论(0) 推荐(0)

2022年4月8日

Apache Hudi核心概念一网打尽

摘要： 1. 场景 https://hudi.apache.org/docs/use_cases.html 近实时写入减少碎片化工具的使用 CDC 增量导入 RDBMS 数据限制小文件的大小和数量近实时分析相对于秒级存储 (Druid, OpenTSDB) ，节省资源提供分钟级别时效性，支撑更高效阅读全文

posted @ 2022-04-08 14:46 大数据从业者FelixZh 阅读(440) 评论(0) 推荐(0)

Bloom Filter在Hudi中的应用

摘要：介绍 Bloom Filter可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都远远超过一般的算法，主要缺点是存在一定的误判率：当其判断元素存在时，实际上元素可能并不存在。而当判定不存在时，则元素一定不存在，Bloom Filter在对精确度要求不太严格的大数据量场景下运用十分广泛阅读全文

posted @ 2022-04-08 11:17 大数据从业者FelixZh 阅读(240) 评论(0) 推荐(0)

2022年4月6日

实战案例：Sql client使用sql操作FlinkCDC2Hudi、支持从savepoint恢复hudi作业

摘要： Flink从1.13版本开始支持在SQL Client从savepoint恢复作业。flink-savepoint介绍接下来我们从Flink SQL Client构建一个mysql cdc数据经kafka入hudi数据湖的例子。整体流程如下：在上述第二步中，我们通过手工停止kafka→hudi的阅读全文

posted @ 2022-04-06 09:41 大数据从业者FelixZh 阅读(1341) 评论(2) 推荐(0)

2022年3月22日

Flink如何设置RocksDB日志：How to Configure RocksDB Logging for Advanced Troubleshooting

摘要： Question RocksDB's LOG file comes in handy when troubleshooting Flink with RocksDB. How can I configure RocksDB logging? Answer Note: This section app 阅读全文

posted @ 2022-03-22 09:29 大数据从业者FelixZh 阅读(744) 评论(0) 推荐(0)

2022年3月15日

Flink 自定义触发器实现带超时时间的 CountWindow

摘要： Flink 的 window 有两个基本款，TimeWindow 和 CountWindow。TimeWindow 是到时间就触发窗口，CountWindow 是到数量就触发。 TimeWindow、CountWindow 都可以分为滚动窗口、滑动窗口如果我需要到时间就触发，并且到时间之前如果已经阅读全文

posted @ 2022-03-15 11:40 大数据从业者FelixZh 阅读(542) 评论(0) 推荐(0)

2022年2月22日

实战案例：Flink1.3.1 ON Hudi0.10，同步数据到Hive

摘要：由于业务需要调研数据湖的使用，这里以Hudi0.10为例，使用的是CDH6.2.1的集群。一、编译Hudi0.10 在centos7上编译，需要配置maven，安装scala环境和docker环境，使用集群环境为CDH6.2.1 maven配置 tar -zxvf apache-maven-3.6 阅读全文

posted @ 2022-02-22 14:52 大数据从业者FelixZh 阅读(1796) 评论(2) 推荐(0)

大数据从业者

最新文章，见微信公众号：大数据从业者

公告