随笔档案「2021年4月」 - Flink菜鸟

flink Stream Api cdc demo

摘要：最近在研究 flink-cdc ，因为想到table api 的 cdc 都是针对单表，如果在同一个数据库上，有很多表需要实时采集（比如： 100 张表），会不会对 mysql 造成压力，如果 mysql 数据量又比较大，是不是会对 mysql 所在服务器造成磁盘和网络的压力。对 binlog 有阅读全文

posted @ 2021-04-25 22:33 Flink菜鸟阅读(4428) 评论(0) 推荐(2)

flink sql 写 kudu

摘要：Kudu 是现在比较火的一款存储引擎，集HDFS的顺序读和HBase的随机读于一身，非常适合物流网场景，刚刚到达的数据就马上要被终端用户使用访问到,未来还要做大规模的数据分析。 kudu 适合的场景（以下内容来自网络）： 1. 适用于那些既有随机访问,也有批量数据扫描的复合场景 2. CPU密集型的阅读全文

posted @ 2021-04-16 17:41 Flink菜鸟阅读(3889) 评论(1) 推荐(0)

【源码】Top n 源码

摘要：本文基于 flink 1.12.0 top n 官网： https://ci.apache.org/projects/flink/flink-docs-release-1.12/dev/table/sql/queries.html#top-n ## sql flink top n sql 如下，to 阅读全文

posted @ 2021-04-13 15:11 Flink菜鸟阅读(970) 评论(0) 推荐(0)

【源码】Flink StreamFileSink 输出文件名怎么命名的

摘要：本文基于 Flink 1.11.3 最近 flink 版本从 1.8 升级到 1.11，在输出数据到 hdfs 的时候，发现输出文件都是这样命名的： .part-0-0.inprogress.aa4a310c-7b48-4dee-b153-2a4f21ef10b3 .part-0-0.inprogr 阅读全文

posted @ 2021-04-13 15:01 Flink菜鸟阅读(1817) 评论(0) 推荐(0)