奇葩兔子 - 博客园

2021年10月25日

摘要： Apache Iceberg作为一款新兴的数据湖解决方案在实现上高度抽象，在存储上能够对接当前主流的HDFS，S3文件系统并且支持多种文件存储格式，例如Parquet、ORC、AVRO。相较于Hudi、Delta与Spark的强耦合，Iceberg可以与多种计算引擎对接，目前社区已经支持Spark读阅读全文

posted @ 2021-10-25 16:30 奇葩兔子阅读(3497) 评论(0) 推荐(0)

2021年10月15日

iceberg初实践

摘要： 1.在spark安装目录jar文件夹下导入iceberg包 2.在spark bin目录下运行./spark-shell，执行下面代码 import org.apache.hadoop.conf.Configuration import org.apache.iceberg.hadoop.Hadoo 阅读全文

posted @ 2021-10-15 16:18 奇葩兔子阅读(269) 评论(0) 推荐(0)

2021年10月11日

flink-配置taskmanager内存

摘要：阅读全文

posted @ 2021-10-11 17:08 奇葩兔子阅读(96) 评论(0) 推荐(0)

2021年8月24日

多个JAR包合并成一个

摘要：在命令行中输入jar，可以看到如下情况：可见jar命令可以对jar进行多种操作。现在把需要合并的jar包放在同一个目录中，cd到这个目录，调用 jar -xvf jar包名字.jar 对各个jar包进行解压。解压完后，把jar包移开，调用 jar -cvfM 合并后的jar包名字.jar . 阅读全文

posted @ 2021-08-24 15:50 奇葩兔子阅读(436) 评论(0) 推荐(0)

2021年5月8日

FLINK-算子

摘要： CONNECT 和 UNION 和 COMAP 和 COFLATMAP union虽然可以合并多个数据流，但有一个限制，即多个数据流的数据类型必须相同。connect提供了和union类似的功能，用来连接两个数据流，它与union的区别在于： connect只能连接两个数据流，union可以连接多个阅读全文

posted @ 2021-05-08 15:30 奇葩兔子阅读(477) 评论(0) 推荐(0)

FLINK-状态管理-配置checkpoint

摘要： StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); // 每隔1000 ms进行启动一个检查点【设置checkpoint的周期】 env.enableCheckpointing( 阅读全文

posted @ 2021-05-08 10:35 奇葩兔子阅读(1113) 评论(0) 推荐(0)

2021年5月7日

FLINK-状态管理-状态使用

摘要： 1.ValueState: private var lastTempState: ValueState[Double] = _ override def open(parameters: Configuration): Unit = { val lastTempDescriptor = new Va 阅读全文

posted @ 2021-05-07 11:58 奇葩兔子阅读(435) 评论(0) 推荐(0)

FLINK-状态管理

摘要： 1.flink中的状态 a.算子状态 b.键控状态 c.状态后端 --用户状态管理 2.算子状态（Operatior State）算子状态是task级别的，就是每个task对应一个state。算子状态数据结构：列表状态（List state），将状态表示为一组数据的列表；（会根据并行度的调整把阅读全文

posted @ 2021-05-07 11:09 奇葩兔子阅读(209) 评论(0) 推荐(0)

2021年5月6日

FLINK-窗口函数-ReduceFunction/AggregateFunction/ProcessWindowFunction

摘要： 1.ReduceFunction 增量聚合，输入输出元素类型相同。 2.AggregateFunction 增量聚合，输入输出元素类型可以不相同。 3.ProcessWindowFunction 一些业务场景，我们需要收集窗口内所有的数据进行计算，例如计算窗口数据的中位数，或者计算窗口数据中出现频率阅读全文

posted @ 2021-05-06 17:32 奇葩兔子阅读(1539) 评论(0) 推荐(0)

FLINK-函数-CoProcessFunction

摘要： CoProcessFunction 对于两条输入流，DataStream API提供了CoProcessFunction这样的low-level操作。CoProcessFunction提供了操作每一个输入流的方法: processElement1()和processElement2()。类似于Pr 阅读全文

posted @ 2021-05-06 16:58 奇葩兔子阅读(931) 评论(0) 推荐(0)