2021年9月7日
摘要:
数仓场景下,经常有两个表 Join 后往一个宽表写数据。比如:埋点数据中只包含 user_id,但是下游计算的需要使用用户的其他属性,就需要将埋点数据和用户数据做关联。 实时场景,需要做流表 Join,用埋点数据的 user_id 去全量用户表中取用户属性。 如果两部分数据产生的顺序不确定,可能先生
阅读全文
posted @ 2021-09-07 17:34
Flink菜鸟
阅读(1221)
推荐(0)
2021年8月24日
摘要:
一个同学在群里问的这个问题,刚好好久没写过window 的sql了,玩一玩 手上没有环境,一起从简了 使用 datagen 生成数据,id 随机生成,最小值 输出直接到 console 窗口 -- flink window tvf calc pv&uv create table if not exi
阅读全文
posted @ 2021-08-24 10:52
Flink菜鸟
阅读(1637)
推荐(0)
2021年8月20日
摘要:
lookup join mysql demo: flink lookup join mysql demo ## join rowkey -- Lookup Source -- kafka source CREATE TABLE user_log ( user_id STRING ,item_id S
阅读全文
posted @ 2021-08-20 10:14
Flink菜鸟
阅读(1960)
推荐(0)
2021年7月19日
摘要:
# Flink SQL 写 hudi 最近在做一个数据湖项目,基于 Hudi 的湖仓一体项目,计算引擎是 Flink + Spark 之前稍稍研究了一下数据湖的三个主要技术组件 IceBerg,以为可能会用,在网上看资料的时候,同样也发现,IceBerg 对 Flink 比较亲和,Hudi 对 Sp
阅读全文
posted @ 2021-07-19 08:17
Flink菜鸟
阅读(3611)
推荐(0)
2021年6月8日
摘要:
Flink 1.12 的时候尝试使用 JDBC SQL Connector kafka 流关联 mysql 表,使用 lookup cache 缓存 mysql 数据,测试在关联性能和更新时效的平衡。不过遭遇了失败,尝试各种 join 也无法实现,mysql source 使用 InputForma
阅读全文
posted @ 2021-06-08 15:03
Flink菜鸟
阅读(6075)
推荐(0)
2021年5月31日
摘要:
2021-06-07 修改 白干了,flink 1.13 json format 可以直接解析复杂的sql,以如下格式 CREATE TABLE user_log ( user_id STRING ,item_id STRING ,category_id STRING ,sub_json ROW(s
阅读全文
posted @ 2021-05-31 15:57
Flink菜鸟
阅读(8532)
推荐(0)
2021年4月25日
摘要:
最近在研究 flink-cdc ,因为想到table api 的 cdc 都是针对单表,如果在同一个数据库上,有很多表需要实时采集(比如: 100 张表),会不会对 mysql 造成压力,如果 mysql 数据量又比较大,是不是会对 mysql 所在服务器造成磁盘和网络的压力。 对 binlog 有
阅读全文
posted @ 2021-04-25 22:33
Flink菜鸟
阅读(4446)
推荐(2)
2021年4月16日
摘要:
Kudu 是现在比较火的一款存储引擎,集HDFS的顺序读和HBase的随机读于一身,非常适合物流网场景,刚刚到达的数据就马上要被终端用户使用访问到,未来还要做大规模的数据分析。 kudu 适合的场景(以下内容来自网络): 1. 适用于那些既有随机访问,也有批量数据扫描的复合场景 2. CPU密集型的
阅读全文
posted @ 2021-04-16 17:41
Flink菜鸟
阅读(3908)
推荐(0)
2021年4月13日
摘要:
本文基于 flink 1.12.0 top n 官网: https://ci.apache.org/projects/flink/flink-docs-release-1.12/dev/table/sql/queries.html#top-n ## sql flink top n sql 如下,to
阅读全文
posted @ 2021-04-13 15:11
Flink菜鸟
阅读(989)
推荐(0)
摘要:
本文基于 Flink 1.11.3 最近 flink 版本从 1.8 升级到 1.11,在输出数据到 hdfs 的时候,发现输出文件都是这样命名的: .part-0-0.inprogress.aa4a310c-7b48-4dee-b153-2a4f21ef10b3 .part-0-0.inprogr
阅读全文
posted @ 2021-04-13 15:01
Flink菜鸟
阅读(1830)
推荐(0)