随笔档案「2021年5月」 - 持枢

【Fink内存管理】一、java的jvm与flink的内存区别

摘要：java的jvm与flink的自我管理内存的区别: java管理内存不足的点：java对象存储对象密度低，full GC大大影响性能，OOM影响稳定性，缓存未命中 flink并不是把对象存在堆内存上，而是存在预分配的内存上MemorgSegment，并提供了高效的读写，直接操作二进制，不需要反序列化阅读全文

posted @ 2021-05-24 16:36 持枢阅读(225) 评论(0) 推荐(0)

【Flink实时数仓】实时的需求（一）

摘要：一、普通实时计算和实时数仓的比较普通实时计算优先考虑时效性，从数据采集经过计算直接得到结果，时效性更好，但是中间结果没有沉淀下来，当面临大量实时计算的时候，计算的复用性差，开发成本大大提高；实时数仓是基于数仓理论对数据分层，提高数据的复用率；二、实时数仓分层 ods：原始数据，业务 dwd：数阅读全文

posted @ 2021-05-17 14:43 持枢阅读(625) 评论(0) 推荐(0)

【Flink提交部署】打包提交到yarn集群问题，以及三种提交模式

摘要：一、打包问题clean之后直接package可能出现 The program's entry point class 'com.atguigu.wcBase.Workcount' was not found in the jar file. 需要在clean之后build，再package erro 阅读全文

posted @ 2021-05-15 11:40 持枢阅读(2018) 评论(0) 推荐(0)

【Flink】3、Flink构建流批数仓（二）

摘要：一、Hive Catalog 主要作用是使用Hive MetaStore去管理Flink的元数据，如果不去持久化catalog，那么在每个session中取处理数据，都要去重复地创建元数据对象，这样是非常耗时的。 HiveCatalog可以处理两种类型的表：一种是Hive兼容的表，另一种是普通表(g 阅读全文

posted @ 2021-05-14 11:12 持枢阅读(191) 评论(0) 推荐(0)

【Flink】2、Flink构建流批数仓（一）

摘要：一、Flink集成Hive 1.持久化元数据 Flink利用 Hive 的 MetaStore 作为持久化的 Catalog，我们可通过HiveCatalog将不同会话中的 Flink 元数据存储到 Hive Metastore 中 2.Flink读写Hive表 Flink直接读写Hive中的表，不阅读全文

posted @ 2021-05-14 10:58 持枢阅读(121) 评论(0) 推荐(0)

【Flink】1、Flink从mysql+hive+kafka查数据以及插入数据

摘要：前提： 1.配置flink的元数据到hive，不然每次重启flink-cli，之前建的表都丢失了在这个默认的sql-client-defaults.yaml修改 catalogs: - name: catalog_1 type: hive hive-conf-dir: /opt/module/hi 阅读全文

posted @ 2021-05-14 10:34 持枢阅读(1588) 评论(0) 推荐(0)

【Kakfa】常用命令

摘要：kafka集群搭建简单略 kafka相关命令补充启动单节点kafka： bin/kafka-server-start.sh -daemon config/server.properties 查看是否启动： jps 查看主题： kafka-topics.sh --zookeeper 192.168 阅读全文

posted @ 2021-05-14 10:28 持枢阅读(71) 评论(0) 推荐(0)

持枢

05 2021 档案

公告