摘要: Apache Iceberg作为一款新兴的数据湖解决方案在实现上高度抽象,在存储上能够对接当前主流的HDFS,S3文件系统并且支持多种文件存储格式,例如Parquet、ORC、AVRO。相较于Hudi、Delta与Spark的强耦合,Iceberg可以与多种计算引擎对接,目前社区已经支持Spark读 阅读全文
posted @ 2021-10-25 16:30 奇葩兔子 阅读(3445) 评论(0) 推荐(0)
摘要: 1.在spark安装目录jar文件夹下导入iceberg包 2.在spark bin目录下运行./spark-shell,执行下面代码 import org.apache.hadoop.conf.Configuration import org.apache.iceberg.hadoop.Hadoo 阅读全文
posted @ 2021-10-15 16:18 奇葩兔子 阅读(267) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2021-10-11 17:08 奇葩兔子 阅读(95) 评论(0) 推荐(0)
摘要: 在命令行中输入jar,可以看到如下情况: 可见jar命令可以对jar进行多种操作。 现在把需要合并的jar包放在同一个目录中,cd到这个目录,调用 jar -xvf jar包名字.jar 对各个jar包进行解压。 解压完后,把jar包移开,调用 jar -cvfM 合并后的jar包名字.jar . 阅读全文
posted @ 2021-08-24 15:50 奇葩兔子 阅读(422) 评论(0) 推荐(0)
摘要: CONNECT 和 UNION 和 COMAP 和 COFLATMAP union虽然可以合并多个数据流,但有一个限制,即多个数据流的数据类型必须相同。connect提供了和union类似的功能,用来连接两个数据流,它与union的区别在于: connect只能连接两个数据流,union可以连接多个 阅读全文
posted @ 2021-05-08 15:30 奇葩兔子 阅读(468) 评论(0) 推荐(0)
摘要: StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); // 每隔1000 ms进行启动一个检查点【设置checkpoint的周期】 env.enableCheckpointing( 阅读全文
posted @ 2021-05-08 10:35 奇葩兔子 阅读(1104) 评论(0) 推荐(0)
摘要: 1.ValueState: private var lastTempState: ValueState[Double] = _ override def open(parameters: Configuration): Unit = { val lastTempDescriptor = new Va 阅读全文
posted @ 2021-05-07 11:58 奇葩兔子 阅读(433) 评论(0) 推荐(0)
摘要: 1.flink中的状态 a.算子状态 b.键控状态 c.状态后端 --用户状态管理 2.算子状态(Operatior State) 算子状态是task级别的,就是每个task对应一个state。 算子状态数据结构: 列表状态(List state),将状态表示为一组数据的列表;(会根据并行度的调整把 阅读全文
posted @ 2021-05-07 11:09 奇葩兔子 阅读(192) 评论(0) 推荐(0)
摘要: 1.ReduceFunction 增量聚合,输入输出元素类型相同。 2.AggregateFunction 增量聚合,输入输出元素类型可以不相同。 3.ProcessWindowFunction 一些业务场景,我们需要收集窗口内所有的数据进行计算,例如计算窗口数据的中位数,或者计算窗口数据中出现频率 阅读全文
posted @ 2021-05-06 17:32 奇葩兔子 阅读(1518) 评论(0) 推荐(0)
摘要: CoProcessFunction 对于两条输入流,DataStream API提供了CoProcessFunction这样的low-level操作。CoProcessFunction提供了操作每一个输入流的方法: processElement1()和processElement2()。 类似于Pr 阅读全文
posted @ 2021-05-06 16:58 奇葩兔子 阅读(923) 评论(0) 推荐(0)