摘要: flink的keyby算子作用是把相同key的数据发送到一个分区(即一个subtask里面去),采用的是哈希分区方法。 用法多样,主要整理了下图中的四种用法。 第一种是 key(Interger) 用法,传入一个整数,这个整数对应的是元组中的元素顺序是第几个,(注:可以是多个key,不一定只有一个, 阅读全文
posted @ 2022-01-07 17:46 习惯了蓝 阅读(3495) 评论(0) 推荐(0)
摘要: Flink创建执行环境有四种方式,下图从上到下是 1 获取执行环境 2.创建本地带webui的环境(实验用) 3.创建本地环境 4.创建远程环境 Flink在流处理上的source和在批处理上的source基本一致。大致有五大类: 基于本地集合的source(Collection-based-sou 阅读全文
posted @ 2022-01-05 21:54 习惯了蓝 阅读(240) 评论(0) 推荐(0)
摘要: 先处理消费端的丢失数据和重复消费 这俩种情况都是 消息偏移offset的问题导致的,只是场景不同。 offset位移提交一般有俩种方式,自动位移提交和手动位移提交。用enable.auto.commit这个配置属性去控制 丢失消息一般是自动提交的问题,所以切换成手动位移提交就可以。手动位移提交分成同 阅读全文
posted @ 2022-01-05 12:52 习惯了蓝 阅读(1087) 评论(0) 推荐(0)
摘要: kafka消费者 1. 消费者有订阅topic有俩种方式,一种是assign,一种是subscribe 2.kafka消费模式 消息中间件一般都是拉取模式 可以看下图一个典型的实例代码 只调用poll,拉取数据太过粗糙,可以用 seek定位到具体位置在进行拉取。 阅读全文
posted @ 2022-01-05 10:39 习惯了蓝 阅读(676) 评论(0) 推荐(0)
摘要: Zookeeper在Kafka中的作用 https://blog.csdn.net/qq_38262266/article/details/108621326 阅读全文
posted @ 2022-01-04 19:22 习惯了蓝 阅读(39) 评论(0) 推荐(0)
摘要: 客户端在配置bootstrap-server的时候就已经拿到了kafka集群的元数据(broker数,分区数等等),kafka集群是每台broker都保持有整个集群的元数据的,所以访问任何一台节点都可以,不像hdfs要去namenode拿。 阅读全文
posted @ 2022-01-03 21:37 习惯了蓝 阅读(187) 评论(0) 推荐(0)
摘要: kafka介绍 kafka作为一个消息存储系统,具有异步,削峰,解耦的作用。与一般的消息队列的先进先出特性不同,kafka只是一个消息缓冲池,全局是无序的(也可以强行变成有序,不过这种情况不在这里讨论) kafka的一些概念 消息:Record。Kafka 是消息引擎嘛,这里的消息就是指 Kafka 阅读全文
posted @ 2022-01-03 20:03 习惯了蓝 阅读(174) 评论(0) 推荐(0)
摘要: https://zhuanlan.zhihu.com/p/131596000 阅读全文
posted @ 2021-12-27 23:58 习惯了蓝 阅读(58) 评论(0) 推荐(0)
摘要: reducebykey算子是Transformation 转换算子(虽然和groupbykey函数效果差不多,不过groupbykey是把同一个组的value放到一个compactbuffer里面去,reducebykey是将同组value聚合成一个value) reducebykey适用(k,v) 阅读全文
posted @ 2021-12-18 20:41 习惯了蓝 阅读(711) 评论(0) 推荐(0)
摘要: count算子 统计rdd中元素的个数 它是一个action算子,把每个分区的个数统计完之后用runjob发送到driver端,然后在driver端进行sum操作。 top算子是一个action算子(返回前num个数据,这是从大到小排好序的前num个) 这里要重点说明一下,你在调用top算子的时候传 阅读全文
posted @ 2021-12-17 16:57 习惯了蓝 阅读(559) 评论(0) 推荐(0)