会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
习惯了蓝
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
7
8
下一页
2022年1月7日
Keyby算子(flink)
摘要: flink的keyby算子作用是把相同key的数据发送到一个分区(即一个subtask里面去),采用的是哈希分区方法。 用法多样,主要整理了下图中的四种用法。 第一种是 key(Interger) 用法,传入一个整数,这个整数对应的是元组中的元素顺序是第几个,(注:可以是多个key,不一定只有一个,
阅读全文
posted @ 2022-01-07 17:46 习惯了蓝
阅读(3495)
评论(0)
推荐(0)
2022年1月5日
执行环境和source
摘要: Flink创建执行环境有四种方式,下图从上到下是 1 获取执行环境 2.创建本地带webui的环境(实验用) 3.创建本地环境 4.创建远程环境 Flink在流处理上的source和在批处理上的source基本一致。大致有五大类: 基于本地集合的source(Collection-based-sou
阅读全文
posted @ 2022-01-05 21:54 习惯了蓝
阅读(240)
评论(0)
推荐(0)
kafka丢失数据和重复消费数据
摘要: 先处理消费端的丢失数据和重复消费 这俩种情况都是 消息偏移offset的问题导致的,只是场景不同。 offset位移提交一般有俩种方式,自动位移提交和手动位移提交。用enable.auto.commit这个配置属性去控制 丢失消息一般是自动提交的问题,所以切换成手动位移提交就可以。手动位移提交分成同
阅读全文
posted @ 2022-01-05 12:52 习惯了蓝
阅读(1087)
评论(0)
推荐(0)
kafka消费方法整理
摘要: kafka消费者 1. 消费者有订阅topic有俩种方式,一种是assign,一种是subscribe 2.kafka消费模式 消息中间件一般都是拉取模式 可以看下图一个典型的实例代码 只调用poll,拉取数据太过粗糙,可以用 seek定位到具体位置在进行拉取。
阅读全文
posted @ 2022-01-05 10:39 习惯了蓝
阅读(676)
评论(0)
推荐(0)
2022年1月4日
kafka的第三方链接
摘要: Zookeeper在Kafka中的作用 https://blog.csdn.net/qq_38262266/article/details/108621326
阅读全文
posted @ 2022-01-04 19:22 习惯了蓝
阅读(39)
评论(0)
推荐(0)
2022年1月3日
kafka的生产者发送数据的流程
摘要: 客户端在配置bootstrap-server的时候就已经拿到了kafka集群的元数据(broker数,分区数等等),kafka集群是每台broker都保持有整个集群的元数据的,所以访问任何一台节点都可以,不像hdfs要去namenode拿。
阅读全文
posted @ 2022-01-03 21:37 习惯了蓝
阅读(187)
评论(0)
推荐(0)
kafka的一些概念整理
摘要: kafka介绍 kafka作为一个消息存储系统,具有异步,削峰,解耦的作用。与一般的消息队列的先进先出特性不同,kafka只是一个消息缓冲池,全局是无序的(也可以强行变成有序,不过这种情况不在这里讨论) kafka的一些概念 消息:Record。Kafka 是消息引擎嘛,这里的消息就是指 Kafka
阅读全文
posted @ 2022-01-03 20:03 习惯了蓝
阅读(174)
评论(0)
推荐(0)
2021年12月27日
flink下载工程模板操作链接
摘要: https://zhuanlan.zhihu.com/p/131596000
阅读全文
posted @ 2021-12-27 23:58 习惯了蓝
阅读(58)
评论(0)
推荐(0)
2021年12月18日
reduce ,reducebykey算子
摘要: reducebykey算子是Transformation 转换算子(虽然和groupbykey函数效果差不多,不过groupbykey是把同一个组的value放到一个compactbuffer里面去,reducebykey是将同组value聚合成一个value) reducebykey适用(k,v)
阅读全文
posted @ 2021-12-18 20:41 习惯了蓝
阅读(711)
评论(0)
推荐(0)
2021年12月17日
Action算子: count ,top,take,takeorder算子
摘要: count算子 统计rdd中元素的个数 它是一个action算子,把每个分区的个数统计完之后用runjob发送到driver端,然后在driver端进行sum操作。 top算子是一个action算子(返回前num个数据,这是从大到小排好序的前num个) 这里要重点说明一下,你在调用top算子的时候传
阅读全文
posted @ 2021-12-17 16:57 习惯了蓝
阅读(559)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
7
8
下一页
公告