会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
ZacksTang
博客园
首页
新随笔
联系
管理
订阅
上一页
1
···
5
6
7
8
9
10
11
12
13
···
15
下一页
2019年11月22日
Apache Hudi 介绍与应用
摘要: Apache Hudi Apache Hudi 在基于 HDFS/S3 数据存储之上,提供了两种流原语: 插入更新 增量拉取 一般来说,我们会将大量数据存储到HDFS/S3,新数据增量写入,而旧数据鲜有改动,特别是在经过数据清洗,放入数据仓库的场景。而且在数据仓库如 hive中,对于update的支
阅读全文
posted @ 2019-11-22 17:39 ZacksTang
阅读(15472)
评论(0)
推荐(0)
2019年11月10日
Flink读写Kafka
摘要: Flink 读写Kafka 在Flink中,我们分别用Source Connectors代表连接数据源的连接器,用Sink Connector代表连接数据输出的连接器。下面我们介绍一下Flink中用于读写kafka的source & sink connector。 Apache Kafka Sour
阅读全文
posted @ 2019-11-10 09:00 ZacksTang
阅读(15636)
评论(1)
推荐(0)
2019年11月9日
Flink 应用的一致性保障
摘要: 应用一致性保障 在Flink中,会自动做检查点,用于故障时恢复一个应用。在恢复时,application的state信息可以根据最近完成的检查点进行重建,并继续运行。不过,仅将一个application的state进行重置并不足以满足exactly-once的保证。 为了给一个应用提供exactly
阅读全文
posted @ 2019-11-09 09:15 ZacksTang
阅读(1419)
评论(1)
推荐(0)
2019年11月8日
Flink系统配置
摘要: Flink 系统配置 Flink 提供了多个配置参数,用于调整Flink的行为与性能,所有参数均在flink-config.yaml 文件中。下面我们介绍一下几个主要配置。 Java and Classloading 默认情况下,Flink启动JVM进程时,会使用系统环境变量里的PATH路径。当然,
阅读全文
posted @ 2019-11-08 13:43 ZacksTang
阅读(5781)
评论(0)
推荐(0)
2019年10月26日
Flink架构(五)- 检查点,保存点,与状态恢复
摘要: 检查点,保存点,与状态恢复 Flink是一个分布式数据处理系统,这种场景下,它需要处理各种异常,例如进程终止、机器故障、网络中断等。因为tasks在本地维护它们的state,Flink必须确保在出现故障的情况下,state不会丢失,并且保持一致性。 在这一节,我们会介绍Flink用于保证exactl
阅读全文
posted @ 2019-10-26 21:14 ZacksTang
阅读(5195)
评论(0)
推荐(3)
Flink架构(四)- 状态管理
摘要: 状态管理 之前我们提到过大多数流应用是有状态的。很多operators会不断的访问并更新某中状态,例如一个window中收集了多少条记录,输入源中当前读到的位置,亦或是用户定义的特定operators的状态。无论是内置的operator还是用户定义的operators,Flink对待它们都是一致的。
阅读全文
posted @ 2019-10-26 08:16 ZacksTang
阅读(2157)
评论(0)
推荐(1)
2019年10月22日
HBase 中读 HDFS 调优
摘要: HDFS Read调优 在基于 HDFS 存储的 HBase 中,主要有两种调优方式: 绕过RPC的选项,称为short circuit reads 开启让HDFS推测性地从多个datanode读数据的选项,称为 hedged reads Short-Circuit Reads 一般来说,HBase
阅读全文
posted @ 2019-10-22 18:00 ZacksTang
阅读(1920)
评论(0)
推荐(0)
HBase 中 Memstore-Local Allocation Buffer
摘要: 在0.90 版本后的 HBase,引入了一个高级机制用于缓解堆内存碎片的问题。此内存碎片问题的产生的主要原因是由于 memstore 上的扰动(频繁的分配与释放内存空间)导致。对应解决此问题的机制为Memstore-Local Allocation Buffer,简称MSLAB。 在一个memsto
阅读全文
posted @ 2019-10-22 14:53 ZacksTang
阅读(423)
评论(0)
推荐(0)
2019年10月8日
Apache Kafka(十二)Log Cleanup 策略
摘要: Log Cleanup 策略 在Kafka中,存在数据过期的机制,称为data expire。如何处理过期数据是根据指定的policy(策略)决定的,而处理过期数据的行为,即为log cleanup。 在Kafka中有以下几种处理过期数据的策略: · log.cleanup.policy=delet
阅读全文
posted @ 2019-10-08 21:44 ZacksTang
阅读(6433)
评论(0)
推荐(0)
2019年10月6日
Apache Kafka(十一)Topic 的配置与组成
摘要: Topic 的配置与组成 之前我们仅主要介绍了Kafka Producer与Kafka Consumer 的相关配置,而未详细介绍过有关topic的配置。Topic的配置在Kafka 使用中也至关重要,因为它的参数足以影响集群性能以及topic 的行为。 在一个topic被创建后,会有它默认的参数,
阅读全文
posted @ 2019-10-06 17:56 ZacksTang
阅读(1224)
评论(0)
推荐(0)
上一页
1
···
5
6
7
8
9
10
11
12
13
···
15
下一页
公告