随笔分类 -  flink

摘要:以下是一个简单的参考实例,用来验证通过FlinkSQL来跑批方式清洗Hive数据可行的。 (1)验证了Hive中org.openx.data.jsonserde.JsonSerDe格式的表是可以直接读取数据出来的 (2)通过TableAPI方式读取Hive表 (3)表转流操作,以及在流中做数据清洗 阅读全文
posted @ 2022-12-21 18:10 硅谷工具人 阅读(1608) 评论(0) 推荐(0)
摘要:做机器迁移,导致flink程序写iceberg失败,原因是hive的元数据存储库mysql停了一段时间。 然后flink出现以下异常, org.apache.iceberg.exceptions.NotFoundException: Failed to open input stream for f 阅读全文
posted @ 2022-09-15 13:10 硅谷工具人 阅读(451) 评论(0) 推荐(0)
摘要:1. 原因 写入iceberg表时,会在hive_locks表中插入一条记录,表示该表正在被写入(hive中的独占锁) 当数据插入完成后,会自动删除该条记录。 2. 出现场景 (1)在同时往同一个iceberg表中写入数据时,会出现Retrying task after failure: Waiti 阅读全文
posted @ 2022-09-08 15:42 硅谷工具人 阅读(1125) 评论(0) 推荐(0)
摘要:Flink在窗口中使用aggregate聚合函数时,提示 Cannot resolve overloaded method 'aggregate'错误 这里可能有2个地方引起的问题: 1. 导入WindowFunction包问题: 下面包是错误的,因为我们是基于scala的开发。 import or 阅读全文
posted @ 2022-05-29 20:43 硅谷工具人 阅读(707) 评论(0) 推荐(0)
摘要:出错信息如下: com.alibaba.fastjson.JSONException: syntax error, expect {, actual float, pos 178, fieldName order_price, fastjson-version 1.2.68 at com.aliba 阅读全文
posted @ 2022-02-13 20:50 硅谷工具人 阅读(936) 评论(0) 推荐(0)
摘要:开发工作: package com.king.app import java.util.Objects import org.apache.flink.api.common.eventtime.{SerializableTimestampAssigner, WatermarkStrategy} im 阅读全文
posted @ 2022-02-12 16:27 硅谷工具人 阅读(132) 评论(0) 推荐(0)
摘要:问题:在scala中将对象转为json字符串时,经常会出现这样的问题 unionDS.print() unionDS.map(x=> JSON.toJSONString(x)) .addSink(MyKafkaUtil.getKafkaProducer(sinkTopic)) 错误信息: Error 阅读全文
posted @ 2022-02-12 15:50 硅谷工具人 阅读(386) 评论(0) 推荐(0)
摘要:Scala: .map(x=> JSON.parseObject(x)) .assignTimestampsAndWatermarks( WatermarkStrategy.forBoundedOutOfOrderness[JSONObject](Duration.ofSeconds(3)) .wi 阅读全文
posted @ 2022-02-08 22:11 硅谷工具人 阅读(76) 评论(0) 推荐(0)
摘要:在监控中保存某个状态值,但是过一段时间后需要将该值清理掉,防止对业务有影响或者堆积浪费存储空间。 flink提供了状态超时设置。 实例如下: class MyFilter extends RichFilterFunction[JSONObject]{ var dateState: ValueStat 阅读全文
posted @ 2022-02-07 17:17 硅谷工具人 阅读(369) 评论(0) 推荐(0)
摘要:1. 美团 - 基于Flink的典型etl场景实现 (1小时) 2. Flink官方提供的企业案例 1) 美团实时数仓平台建设2021新进展 (20分钟) 2)快手实时数仓保障体系研发实战(31分钟) 3)腾讯云原生实时数仓建设实战(24分钟) 4)理想汽车基于Flink的实时数仓0-1建设 (21 阅读全文
posted @ 2022-01-31 00:35 硅谷工具人 阅读(89) 评论(0) 推荐(0)
摘要:案例场景:flink实时数仓项目,在建设dwd层时,通过flinkcdc监控配置表。 当在配置表中指定某个业务表的数据发送到phoenix时,就自动将业务数据写入phoenix。 当在配置表中指定某个业务表的数据发送到kafka时,就自动将业务数据发送到kafka。 这样在从源头kafka消费业务数 阅读全文
posted @ 2022-01-24 23:51 硅谷工具人 阅读(87) 评论(0) 推荐(0)
摘要:该方法使用的是com.ververica版本的flink-connector-mysql-cdc,另一个版本测试也没问题了,见https://www.cnblogs.com/30go/p/15773357.html。 注意版本,不同版本组合可能会出现一些异常的情况: flink1.12.7 flin 阅读全文
posted @ 2022-01-20 01:18 硅谷工具人 阅读(2520) 评论(0) 推荐(0)
摘要:之前测试环境用root没这个问题。换到生产环境指定的某个mysql账号出现权限不足: Caused by: java.sql.SQLSyntaxErrorException: Access denied; you need (at least one of) the RELOAD privilege 阅读全文
posted @ 2022-01-16 01:11 硅谷工具人 阅读(912) 评论(0) 推荐(0)
摘要:场景应用:将MySQL的变化数据转为实时流输出到Kafka中。 注意版本问题,版本不同可能会出现异常,以下版本测试没问题: flink1.12.7 flink-connector-mysql-cdc 1.3.0(com.alibaba.ververica) (测试时使用1.2.0版本时会出现空指针错 阅读全文
posted @ 2022-01-06 23:26 硅谷工具人 阅读(5889) 评论(9) 推荐(0)
摘要:不想看太多的话,直接拉到第二部分操作步骤: 1. 是解决过程: 在flink1.14.0中已经移除sql-client-defaults.yml配置文件了。 参考地址:https://issues.apache.org/jira/browse/FLINK-21454 于是我顺着这个issue找到了F 阅读全文
posted @ 2021-10-06 03:05 硅谷工具人 阅读(4230) 评论(2) 推荐(1)
摘要:使用如下项目骨架创建flink项目,结果被官方的下面这个创建方式坑了。。 刚开始以为是阿里云镜像站的问题,但是增加了几个都不行。后来终于查到是archetype插件的版本问题。 修改如下,问题解决: 阅读全文
posted @ 2019-06-27 17:35 硅谷工具人 阅读(3358) 评论(0) 推荐(0)

成功之道,在于每个人生阶段都要有不同的目标,并且通过努力实现自己的目标,毕竟人生不过百年! 所有奋斗的意义在于为个人目标实现和提升家庭幸福,同时能推进社会进步和国家目标! 正如古人讲的正心诚意格物致知,修身齐家治国平天下。