上一页 1 2 3 4 5 6 ··· 31 下一页
摘要: Bloom filter 是一个数据结构,它可以用来判断某个元素是否在集合内,具有运行快速,内存占用小的特点。 而高效插入和查询的代价就是,Bloom Filter 是一个基于概率的数据结构:它只能告诉我们一个元素绝对不在集合内或可能在集合内 Bloom filter 的基础数据结构是一个 比特向量 阅读全文
posted @ 2022-04-21 20:01 大数据从业者FelixZh 阅读(61) 评论(0) 推荐(0) 编辑
摘要: Introduction What would you do if you need to see more details of some Apache Flink application logic at runtime, but there's no logging in that code 阅读全文
posted @ 2022-04-21 16:06 大数据从业者FelixZh 阅读(78) 评论(0) 推荐(0) 编辑
摘要: Question RocksDB's LOG file comes in handy when troubleshooting Flink with RocksDB. How can I configure RocksDB logging? Answer Note: This section app 阅读全文
posted @ 2022-04-19 19:49 大数据从业者FelixZh 阅读(54) 评论(0) 推荐(0) 编辑
摘要: We have a pipeline with operations, split into 2 workloads - Source -> Transform are in a first group and are CPU-intensive workloads, they are put in 阅读全文
posted @ 2022-04-19 11:14 大数据从业者FelixZh 阅读(328) 评论(0) 推荐(0) 编辑
摘要: Apache Hudi使用索引来定位更删操作所在的文件组。对于Copy-On-Write表,索引能加快更删的操作,因为避免了通过连接整个数据集来决定哪些文件需要重写。对于Merge-On-Read表,这个设计,对于任意给定的基文件,能限定要与其合并的记录数量。具体地,一个给定的基文件只需要和其所包含 阅读全文
posted @ 2022-04-09 10:05 大数据从业者FelixZh 阅读(1107) 评论(0) 推荐(0) 编辑
摘要: 1. 场景 https://hudi.apache.org/docs/use_cases.html 近实时写入 减少碎片化工具的使用 CDC 增量导入 RDBMS 数据 限制小文件的大小和数量 近实时分析 相对于秒级存储 (Druid, OpenTSDB) ,节省资源 提供分钟级别时效性,支撑更高效 阅读全文
posted @ 2022-04-08 14:46 大数据从业者FelixZh 阅读(371) 评论(0) 推荐(0) 编辑
摘要: 介绍 Bloom Filter可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都远远超过一般的算法,主要缺点是存在一定的误判率:当其判断元素存在时,实际上元素可能并不存在。而当判定不存在时,则元素一定不存在,Bloom Filter在对精确度要求不太严格的大数据量场景下运用十分广泛 阅读全文
posted @ 2022-04-08 11:17 大数据从业者FelixZh 阅读(174) 评论(0) 推荐(0) 编辑
摘要: Flink从1.13版本开始支持在SQL Client从savepoint恢复作业。flink-savepoint介绍 接下来我们从Flink SQL Client构建一个mysql cdc数据经kafka入hudi数据湖的例子。整体流程如下: 在上述第二步中,我们通过手工停止kafka→hudi的 阅读全文
posted @ 2022-04-06 09:41 大数据从业者FelixZh 阅读(1128) 评论(2) 推荐(0) 编辑
摘要: Question RocksDB's LOG file comes in handy when troubleshooting Flink with RocksDB. How can I configure RocksDB logging? Answer Note: This section app 阅读全文
posted @ 2022-03-22 09:29 大数据从业者FelixZh 阅读(493) 评论(0) 推荐(0) 编辑
摘要: Flink 的 window 有两个基本款,TimeWindow 和 CountWindow。TimeWindow 是到时间就触发窗口,CountWindow 是到数量就触发。 TimeWindow、CountWindow 都可以分为滚动窗口、滑动窗口 如果我需要到时间就触发,并且到时间之前如果已经 阅读全文
posted @ 2022-03-15 11:40 大数据从业者FelixZh 阅读(406) 评论(0) 推荐(0) 编辑
摘要: 由于业务需要调研数据湖的使用,这里以Hudi0.10为例,使用的是CDH6.2.1的集群。 一、编译Hudi0.10 在centos7上编译,需要配置maven,安装scala环境和docker环境,使用集群环境为CDH6.2.1 maven配置 tar -zxvf apache-maven-3.6 阅读全文
posted @ 2022-02-22 14:52 大数据从业者FelixZh 阅读(1555) 评论(2) 推荐(0) 编辑
摘要: I will focus on why using LDAP, not what is LDAP. The use model is similar like how people use library cards or phonebooks. When you have a task that 阅读全文
posted @ 2022-01-28 11:26 大数据从业者FelixZh 阅读(57) 评论(0) 推荐(0) 编辑
摘要: Pulsar的前世今生 Apache Pulsar是一个发布-订阅消息系统,使用计算与存储分离的云原生架构。Pulsar 2018年9月成为ASF顶级项目,近两年,随着社区不断发展和诸多企业的应用和贡献,Pulsar作为一个云原生的分布式消息流平台,越来越频繁地出现在人们的视野中,大有替代Kafka 阅读全文
posted @ 2022-01-08 16:02 大数据从业者FelixZh 阅读(528) 评论(0) 推荐(0) 编辑
摘要: 面试中经常会问到类似问题,看上去很简单,就是一个排序而已,但是你好好想想大部分排序算法都需要把数据放到内存里面操作,这10亿个数字得占用多少内存?好吧,你可以使用外部排序算法,在磁盘上完成排序!当然这些传统算法肯定是可以解决的,不过这里有一个更好的方案,采用bitmap排序,介绍如下: bitmap 阅读全文
posted @ 2021-12-29 20:36 大数据从业者FelixZh 阅读(1259) 评论(0) 推荐(0) 编辑
摘要: 哈,好久没更新文章了,今天来说说关于mySQL那些年的小事。说到mySQL啊,用了挺久的了,但是有个问题一直在困扰着我,就是left join、join、right join和inner join等等各种join的区别。网上搜,最常见的就是一张图解图,如下: 真的是一张图道清所有join的区别啊,可 阅读全文
posted @ 2021-12-24 16:46 大数据从业者FelixZh 阅读(347) 评论(0) 推荐(0) 编辑
摘要: 之前我们了解了基于Corator的分布式锁之后,我们就很容易基于其实现一个分布式计数器,顾名思义,计数器是用来计数的, 利用ZooKeeper可以实现一个集群共享的计数器。 只要使用相同的path就可以得到最新的计数器值, 这是由ZooKeeper的一致性保证的。Curator有两种计数器。 Sha 阅读全文
posted @ 2021-12-16 11:30 大数据从业者FelixZh 阅读(391) 评论(0) 推荐(0) 编辑
摘要: 什么是BarrierBarrier是一个同步点,每一个线程到达此点都要等待,直到某一个条件满足,所有的线程才能继续进行。比如:赛跑大家都知道,所有比赛人员都会在起跑线外等待,直到教练员的枪响之后,所有参赛者立刻开始赛跑。 JDK的并发包下有CyclicBarrier,它看起来和CountDownLa 阅读全文
posted @ 2021-12-15 20:04 大数据从业者FelixZh 阅读(168) 评论(0) 推荐(0) 编辑
摘要: 随着业务增加,以前简单的系统已经变得越来越复杂,单纯的提升服务器性能也不是办法,而且代码也是越来越庞大,维护也变得越来越困难,这一切都催生了新的架构设计风格 – 微服务架构的出现。 微服务给我们带来了很多好处,例如:独立可扩展、易维护。但是随着应用的分解,微服务的引入,服务越来越多,业务系统与服务系 阅读全文
posted @ 2021-12-14 20:27 大数据从业者FelixZh 阅读(446) 评论(0) 推荐(0) 编辑
摘要: 分布式锁和Master选举相似点分布式锁和 Master选举有几种相似点,实际上其实现机制也相近: 同一时刻只有一个获取锁 / 只能有一个leader对于分布式排他锁来说,任意时刻,只能有一个进程(对于单进程内的锁是单线程)可以获得锁。对于领导选举来说,任意时刻,只能有一个成功当选为leader。否 阅读全文
posted @ 2021-12-14 15:22 大数据从业者FelixZh 阅读(637) 评论(0) 推荐(0) 编辑
摘要: 在分布式环境中 ,为了保证数据的一致性,经常在程序的某个运行点(例如,减库存操作或者流水号生成等)需要进行同步控制。以一个"流水号生成"的场景为例,普通的后台应用通常都是使用时间戳来生成流水号,但是在用户访问量很大的情况下,可能会出现并发问题。下面通过示例程序就演示一个典型的并发问题: public 阅读全文
posted @ 2021-12-13 16:14 大数据从业者FelixZh 阅读(921) 评论(0) 推荐(0) 编辑
摘要: Zookeeper原生就支持通过注册Watcher来进行事件监听,但是其使用并不是特别方便,需要开发人员反复注册Watcher,比较繁琐。Curator引入了Cache来实现对zookeeper服务端事件的监听,Cache是Curator中对事件的包装,其对事件的监听其实可以近似的看做是一个本地缓存 阅读全文
posted @ 2021-12-13 10:38 大数据从业者FelixZh 阅读(476) 评论(0) 推荐(0) 编辑
摘要: 原生API中基本上所有的操作都有提供异步操作,Curator也有提供异步操作的API。 异步操作在使用以上针对节点的操作API时,我们会发现每个接口都有一个inBackground()方法可供调用。此接口就是Curator提供的异步调用入口。对应的异步处理接口为BackgroundCallback。 阅读全文
posted @ 2021-12-13 10:17 大数据从业者FelixZh 阅读(239) 评论(0) 推荐(0) 编辑
摘要: Oleg Yermolaiev Scala Developer & Technical Lead zookeeper scala configuration curator distributed One of the steps towards building a successful dist 阅读全文
posted @ 2021-12-11 17:04 大数据从业者FelixZh 阅读(226) 评论(0) 推荐(0) 编辑
摘要: Today I’ve got a sudden speech about Apache Zookeeper in corporate architects community. There should have been another speaker, but he did not arrive 阅读全文
posted @ 2021-12-11 17:03 大数据从业者FelixZh 阅读(63) 评论(0) 推荐(0) 编辑
摘要: 什么是裸金属 什么是裸金属 裸金属,是英文 Bare Metal 的直译,其实也是可以叫 Bare Machine 的,可能大家觉得 Metal 听起来更酷一点,所以都爱这么叫。 如果说裸金属听起来有点懵逼,那么说裸机大家都很好理解了,就是指没有操作系统的计算机硬件。 大家伙平时在说起服务器(Ser 阅读全文
posted @ 2021-12-11 11:08 大数据从业者FelixZh 阅读(1176) 评论(0) 推荐(1) 编辑
摘要: 本文主要讲解如下内容: 为什么要使用分布式锁? 分布式锁特性! 分布式锁的实现方式有哪些? Curator分布式锁原理 Curator分布式锁实现类UML及相关类的介绍 基于Redis,数据库实现分布式锁 为什么要使用分布式锁? 在传统的单机应用中,我们使用JAVA提供的synchronized、R 阅读全文
posted @ 2021-12-07 14:32 大数据从业者FelixZh 阅读(341) 评论(0) 推荐(0) 编辑
摘要: 一 简介 Apache Curator是一个比较完善的ZooKeeper客户端框架,通过封装的一套高级API 简化了ZooKeeper的操作。通过查看官方文档,可以发现Curator主要解决了三类问题: 封装ZooKeeper client与ZooKeeper server之间的连接处理 提供了一套 阅读全文
posted @ 2021-12-06 16:56 大数据从业者FelixZh 阅读(572) 评论(0) 推荐(0) 编辑
摘要: ZooKeeper Version 3.4.x Compatibility ZooKeeper 3.4.x is now at end-of-life. Consequently, the latest versions of Curator have removed support for it. 阅读全文
posted @ 2021-12-06 15:55 大数据从业者FelixZh 阅读(1418) 评论(0) 推荐(0) 编辑
摘要: zookeeper 常用的3种java客户端: zookeeper原生Java API ZkClient Apache curator 1、zookeeper原生Java API Zookeeper客户端提供了基本的操作,比如,创建会话、创建节点、读取节点、更新数据、删除节点和检查节点是否存在等。但 阅读全文
posted @ 2021-12-03 17:59 大数据从业者FelixZh 阅读(451) 评论(0) 推荐(0) 编辑
摘要: 序言直接使用zookeeper的api实现业务功能比较繁琐。因为要处理session loss,session expire等异常,在发生这些异常后进行重连。 又因为ZK的watcher是一次性的,如果要基于wather实现发布/订阅模式,还要自己包装一下,将一次性订阅包装成持久订阅。 另外如果要使 阅读全文
posted @ 2021-12-03 16:58 大数据从业者FelixZh 阅读(377) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 ··· 31 下一页