海贼王一样的男人

2020年11月30日

摘要：基于Event-Time的窗口处理流式数据，虽然提供了WaterMark机制，却只能在一定程度上解决了数据乱序的问题。但在某些情况下数据可能延时会分厂严重，及时通过WaterMark机制也无法等到数据全部进入窗口再进行处理。Flink中默认会将这些迟到的数据做丢弃处理，但是有些时候用户希望及时数据延阅读全文

posted @ 2020-11-30 11:19 海贼王一样的男人阅读(475) 评论(0) 推荐(0) 编辑

Flink WaterMark水位线

摘要：在使用EventTime处理Stream数据的时候会遇到数据乱序的问题，流处理从Event（事件）产生，流经Source，再到Operator，这中间需要一定的时间。虽然大部分情况下，传输到Operator的数据都是按照事件产生的时间顺序来的，但是也不排除由于网络延迟等原因而导致乱序的产生，特别是使阅读全文

posted @ 2020-11-30 08:58 海贼王一样的男人阅读(441) 评论(0) 推荐(0) 编辑

2020年11月28日

Flink Time时间语义

摘要：对于流式处理，最大的特点是数据上具有时间的属性特征，Flink根据时间产生的位置不同，将时间区分为三种时间语义，分别为事件生成时间（Event Time），时间接入时间（Ingestion Time）和事件处理时间（Processing Time）。 Event Time：事件产生的时间，它通常由事阅读全文

posted @ 2020-11-28 17:17 海贼王一样的男人阅读(417) 评论(0) 推荐(0) 编辑

Flink之流式框架的对比

摘要： Flink的优势和特点：一、同时支持高吞吐、低延迟、高性能 Flink是目前开源社区中唯一一套集高吞吐、低延迟、高性能三者于一身的分布式流式数据处理框架。Apache Spark也只能兼顾高吞吐和高性能特点，主要是因为Spark Streaming流式计算中无法做到低延迟保障；而流式计算框架Apa 阅读全文

posted @ 2020-11-28 15:07 海贼王一样的男人阅读(348) 评论(0) 推荐(0) 编辑

2020年11月18日

Flink内存优化

摘要：在大数据领域，大多数开源框架（Hadoop、Spark、Storm）都是基于JVM运行，但是JVM的内存管理机制往往存在着诸多类似OutOfMemoryError的问题，主要是因为创建过多的对象实例而超过JVM的最大堆内存限制，却没有被有效回收掉，这就在很大程度上影响了系统的稳定性，尤其对于大数据应阅读全文

posted @ 2020-11-18 16:18 海贼王一样的男人阅读(1999) 评论(2) 推荐(0) 编辑

2020年4月28日

Spark Streaming + Kafka java.lang.IllegalArgumentException: requirement failed: numRecords must not be negative

摘要： 20/04/28 19:40:00 ERROR JobScheduler: Error generating jobs for time 1588074000000 ms java.lang.IllegalArgumentException: requirement failed: numRecor 阅读全文

posted @ 2020-04-28 20:20 海贼王一样的男人阅读(1763) 评论(0) 推荐(0) 编辑

2020年4月27日

KafkaUtils.createDirectStream()参数详解

摘要：通过KafkaUtils.createDirectStream该方法创建kafka的DStream数据源，传入有三个参数：ssc，LocationStrategies，ConsumerStrategies。 LocationStrategies有三种策略：PreferBrokers，PreferCo 阅读全文

posted @ 2020-04-27 18:23 海贼王一样的男人阅读(7442) 评论(0) 推荐(0) 编辑

Kafka ConsumerRecord Timestamp

摘要：在监控binlog日志中，会有ts字段表示一个事务提交的时间戳，如果用这个时间戳处理数据，会出现同一个单号时间戳相同的情况。于是考虑用kafka每条消息的时间戳来进行数据处理。在消息中增加一个时间戳字段和时间戳类型，目前支持的时间戳类型有两种：CreateTime和LogAppendTime，前阅读全文

posted @ 2020-04-27 16:24 海贼王一样的男人阅读(3376) 评论(0) 推荐(0) 编辑

2020年4月26日

HBase简介

摘要：前言 Hadoop已经包括了HDFS和MapReduce，可以很好的解决大规模数据的离线批量处理，但是受限于MR架构的高延迟数据处理机制，使得Hadoop不能满足大规模数据实时处理应用；HDFS面向批量访问模式，不是随机访问模式；传统的通用关系型数据库无法应对在数据规模剧增时导致的系统扩展性和性能问阅读全文

posted @ 2020-04-26 20:53 海贼王一样的男人阅读(487) 评论(0) 推荐(0) 编辑

2020年3月27日

KAFKA分区、生产者、消费者之间的关系

摘要：大家都知道，Kafka生产者发送消息到主题，消费者订阅主题消费消息。而主题下边是分区，消息是存储在分区中，所以事实上是生产者发送消息到分区，消费者从分区读取消息。所以，生产者发送消息到哪个分区？消费者又从哪个分区读取消息呢？ kafka主题的分区数可以自己设置，如果创建主题的时候没有指定分区数量，阅读全文

posted @ 2020-03-27 15:54 海贼王一样的男人阅读(706) 评论(0) 推荐(0) 编辑

请叫我海贼

公告