上一页 1 2 3 4 5 6 ··· 32 下一页
摘要: 每一种引擎有其优势的地方,如何选择适合自己业务的流计算引擎成了一个由来已久的话题。除了比较各个引擎提供的不同的功能矩阵之外,性能是一个无法绕开的评估因素。基准测试(benchmark)就是用来评估系统性能的一个重要和常见的过程。 01 背景 随着数据时效性对企业的精细化运营越来越重要,“实时即未来” 阅读全文
posted @ 2022-10-29 19:37 大数据从业者FelixZh 阅读(851) 评论(0) 推荐(0)
摘要: 在我们做测试之前,调研了一些已有的大数据平台性能测试报告,比如,雅虎的Streaming-benchmarks,或者Intel的HiBench等等。除此之外,还有很多的论文也从不同的角度对分布式计算平台进行了测试。虽然这些测试case各有不同的侧重点,但他们都用到了同样的两个指标,即吞吐和延迟。吞吐 阅读全文
posted @ 2022-10-29 19:25 大数据从业者FelixZh 阅读(1397) 评论(0) 推荐(0)
摘要: BRIJESH JAGGI SEP 20, 2022 Microservices architectures have now been widely adopted among developers, and with a great degree of success. However, dra 阅读全文
posted @ 2022-10-14 23:04 大数据从业者FelixZh 阅读(214) 评论(0) 推荐(0)
摘要: SEP 20, 2022 Microservices architectures have now been widely adopted among developers, and with a great degree of success. However, drawbacks do exis 阅读全文
posted @ 2022-10-13 15:21 大数据从业者FelixZh 阅读(106) 评论(0) 推荐(0)
摘要: 一、背景 一个需求,需要同步MySQL数据到Hive,包括DDL与DML,所以需要动态同步元数据变化。 二、官方Schema Evolution例子 从Hudi官方文档Schema Evolution(https://hudi.apache.org/docs/next/schema_evolutio 阅读全文
posted @ 2022-09-29 10:33 大数据从业者FelixZh 阅读(1252) 评论(0) 推荐(0)
摘要: 1、什么是zookeeper的会话过期? 通常使用zookeeper集群模式,client和zookeeper集群(3个实例)建立一个会话session。 所谓session即client随机与其中一个zk provider建立的链接,并且互发心跳heartbeat。 zookeeper集群负责管理 阅读全文
posted @ 2022-09-17 16:46 大数据从业者FelixZh 阅读(1716) 评论(0) 推荐(0)
摘要: ZooKeeper的超时异常包括两种: 1)客户端的readTimeout导致连接丢失。 2)服务端会话超时sessionTimeout导致客户端连接失效。 客户端的readTimeout导致连接丢失 ZooKeeper客户端的readTimeout无法显示设置,根据会话超时时间计算得来: 1. 当 阅读全文
posted @ 2022-09-17 15:49 大数据从业者FelixZh 阅读(1406) 评论(0) 推荐(0)
摘要: 104 56 I have written a small program that interacts with a server on a specific port. The program works fine, but: Once the program terminated unexpe 阅读全文
posted @ 2022-07-04 19:47 大数据从业者FelixZh 阅读(584) 评论(0) 推荐(0)
摘要: 1. 概述 官方https://docs.oracle.com/javase/9/docs/api/com/sun/net/httpserver/package-summary.html HttpServer 是 JDK 1.6 以后内置的一个轻量级 HTTP 服务器(在 rt.jar 包中的 co 阅读全文
posted @ 2022-07-04 14:53 大数据从业者FelixZh 阅读(4334) 评论(0) 推荐(0)
摘要: Caused by: com.typesafe.config.ConfigException$UnresolvedSubstitution: reference.conf @ jar:file:/home/FlinkIdeaDemo-1.0.jar!/reference.conf: 875: Cou 阅读全文
posted @ 2022-06-24 16:26 大数据从业者FelixZh 阅读(528) 评论(0) 推荐(0)
摘要: 生成数据的目录需要提前创建好 [root@felixzh tools]# mkdir /home/my_data_1G 阅读全文
posted @ 2022-06-22 17:18 大数据从业者FelixZh 阅读(208) 评论(0) 推荐(0)
摘要: 问题现象 当Key数量较少时,Flink流执行KeyBy(),并且设置的并行度setParallelism()不唯一时,会出现分到不同task上的key数量不均匀的情况,即: 某些subtask没有分到数据,但是某些subtask分到了较多的key对应的数据 Key数量较大时,不容易出现这类不均匀的 阅读全文
posted @ 2022-06-01 22:39 大数据从业者FelixZh 阅读(4026) 评论(0) 推荐(1)
摘要: 最近工作中发现老是有同事遇到NoClassDefFoundError以及ClassNotFoundException这两种异常,很对人对此比较困惑,于是研究了一下并整理了此文档,希望对大家有所帮助。ClassNotFoundException这个比较好理解,就是找不到类。其直接原因是:当应用调用类的 阅读全文
posted @ 2022-05-27 16:59 大数据从业者FelixZh 阅读(1083) 评论(0) 推荐(0)
摘要: 一、引言 HBase其存储和读写的高性能,作为Nosql数据库的一员,HBase查询只能通过其Rowkey来查询(Rowkey用来表示唯一一行记录),Rowkey设计的优劣直接影响读写性能。HBase中的数据是按照Rowkey的ASCII字典顺序进行全局排序的,有伙伴可能对ASCII字典序印象不够深 阅读全文
posted @ 2022-05-24 19:54 大数据从业者FelixZh 阅读(1663) 评论(0) 推荐(0)
摘要: 最近在编译cruise-control-2.5.92,gradle提示 Using insecure protocols with repositories, without explicit opt-in, has been deprecated. This is scheduled to be 阅读全文
posted @ 2022-05-19 10:54 大数据从业者FelixZh 阅读(2244) 评论(0) 推荐(0)
摘要: Configuring Kerberos with OpenLDAP back-end Make sure the LDAP server is using local authentication (ldapi://) or TLS (ldaps). See https://www.openlda 阅读全文
posted @ 2022-05-14 09:17 大数据从业者FelixZh 阅读(117) 评论(0) 推荐(0)
摘要: Kerberos supports a few database backends. The default one is what we have been using so far, called db2. The DB Types documentation shows all the opt 阅读全文
posted @ 2022-05-14 09:16 大数据从业者FelixZh 阅读(178) 评论(0) 推荐(0)
摘要: BitMap 现代计算机用二进制(bit,位)作为信息的基础单位,1 个字节等于 8 位。许多开发语言都提供了操作位的功能,合理地使用位能够有效地提高内存使用率和开发效率。 Bit-map 的基本思想就是用一个 bit 位来标记某个元素对应的 value,而 key 即是该元素。由于采用了 bit 阅读全文
posted @ 2022-04-22 09:42 大数据从业者FelixZh 阅读(1086) 评论(0) 推荐(0)
摘要: 什么是 Hash Hash(哈希),又称“散列”。在某种程度上,散列是与排序相反的一种操作,排序是将集合中的元素按照某种方式比如字典顺序排列在一起。而散列通过计算哈希值,打破元素之间原有的关系,使集合中的元素按照散列函数的分类进行排列。 在介绍一些集合时,我们总强调需要重写某个类的 equlas() 阅读全文
posted @ 2022-04-21 20:26 大数据从业者FelixZh 阅读(302) 评论(0) 推荐(0)
摘要: Bloom filter 是一个数据结构,它可以用来判断某个元素是否在集合内,具有运行快速,内存占用小的特点。 而高效插入和查询的代价就是,Bloom Filter 是一个基于概率的数据结构:它只能告诉我们一个元素绝对不在集合内或可能在集合内 Bloom filter 的基础数据结构是一个 比特向量 阅读全文
posted @ 2022-04-21 20:01 大数据从业者FelixZh 阅读(96) 评论(0) 推荐(0)
摘要: Introduction What would you do if you need to see more details of some Apache Flink application logic at runtime, but there's no logging in that code 阅读全文
posted @ 2022-04-21 16:06 大数据从业者FelixZh 阅读(108) 评论(0) 推荐(0)
摘要: Question RocksDB's LOG file comes in handy when troubleshooting Flink with RocksDB. How can I configure RocksDB logging? Answer Note: This section app 阅读全文
posted @ 2022-04-19 19:49 大数据从业者FelixZh 阅读(79) 评论(0) 推荐(0)
摘要: We have a pipeline with operations, split into 2 workloads - Source -> Transform are in a first group and are CPU-intensive workloads, they are put in 阅读全文
posted @ 2022-04-19 11:14 大数据从业者FelixZh 阅读(424) 评论(0) 推荐(0)
摘要: Apache Hudi使用索引来定位更删操作所在的文件组。对于Copy-On-Write表,索引能加快更删的操作,因为避免了通过连接整个数据集来决定哪些文件需要重写。对于Merge-On-Read表,这个设计,对于任意给定的基文件,能限定要与其合并的记录数量。具体地,一个给定的基文件只需要和其所包含 阅读全文
posted @ 2022-04-09 10:05 大数据从业者FelixZh 阅读(1384) 评论(0) 推荐(0)
摘要: 1. 场景 https://hudi.apache.org/docs/use_cases.html 近实时写入 减少碎片化工具的使用 CDC 增量导入 RDBMS 数据 限制小文件的大小和数量 近实时分析 相对于秒级存储 (Druid, OpenTSDB) ,节省资源 提供分钟级别时效性,支撑更高效 阅读全文
posted @ 2022-04-08 14:46 大数据从业者FelixZh 阅读(433) 评论(0) 推荐(0)
摘要: 介绍 Bloom Filter可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都远远超过一般的算法,主要缺点是存在一定的误判率:当其判断元素存在时,实际上元素可能并不存在。而当判定不存在时,则元素一定不存在,Bloom Filter在对精确度要求不太严格的大数据量场景下运用十分广泛 阅读全文
posted @ 2022-04-08 11:17 大数据从业者FelixZh 阅读(226) 评论(0) 推荐(0)
摘要: Flink从1.13版本开始支持在SQL Client从savepoint恢复作业。flink-savepoint介绍 接下来我们从Flink SQL Client构建一个mysql cdc数据经kafka入hudi数据湖的例子。整体流程如下: 在上述第二步中,我们通过手工停止kafka→hudi的 阅读全文
posted @ 2022-04-06 09:41 大数据从业者FelixZh 阅读(1330) 评论(2) 推荐(0)
摘要: Question RocksDB's LOG file comes in handy when troubleshooting Flink with RocksDB. How can I configure RocksDB logging? Answer Note: This section app 阅读全文
posted @ 2022-03-22 09:29 大数据从业者FelixZh 阅读(728) 评论(0) 推荐(0)
摘要: Flink 的 window 有两个基本款,TimeWindow 和 CountWindow。TimeWindow 是到时间就触发窗口,CountWindow 是到数量就触发。 TimeWindow、CountWindow 都可以分为滚动窗口、滑动窗口 如果我需要到时间就触发,并且到时间之前如果已经 阅读全文
posted @ 2022-03-15 11:40 大数据从业者FelixZh 阅读(520) 评论(0) 推荐(0)
摘要: 由于业务需要调研数据湖的使用,这里以Hudi0.10为例,使用的是CDH6.2.1的集群。 一、编译Hudi0.10 在centos7上编译,需要配置maven,安装scala环境和docker环境,使用集群环境为CDH6.2.1 maven配置 tar -zxvf apache-maven-3.6 阅读全文
posted @ 2022-02-22 14:52 大数据从业者FelixZh 阅读(1768) 评论(2) 推荐(0)
上一页 1 2 3 4 5 6 ··· 32 下一页
大数据从业者