2022年2月12日

hive metadata 容器镜像

摘要: hive 3.0 之后metadata 是可以支持独立部署的,可以方便开源社区好多工具支持使用 以下是一个参考的docker镜像以及运行 参考使用 version: "3" services: mariadb: image: mariadb:10 container_name: mariadb po 阅读全文

posted @ 2022-02-12 23:07 荣锋亮 阅读(271) 评论(0) 推荐(0)

lakefs metadata 集成

摘要: lakefs 为了更好的支持hive 以及glue单独开发了metadata 同步的命令(基于metadata 的thrift rpc 协议) 主要解决的问题 比如我们在main分支创建了table,然后我们开发了dev 分支,如果基于hive 的metadata 进行数据查询就有问题了 此时就可以 阅读全文

posted @ 2022-02-12 21:57 荣锋亮 阅读(83) 评论(0) 推荐(0)

lakefs 周边生态集成

摘要: lakefs 集成的周边还是很多的,核心还是利用了s3 的特性,核心主要玩法以下 直接利用s3特性 比如delta lake,spark,airbyte,kafka,dremio 基于hdfs 使用s3a扩展进行hdfs集成 hive 元数据集成 实际上还是s3 的特性,只是基于git 的特性扩展了 阅读全文

posted @ 2022-02-12 21:14 荣锋亮 阅读(201) 评论(0) 推荐(0)

lakefs 监控

摘要: lakefs 提供了prometheus 的metrics 用来搞监控还是很方便的,而且强大,可以做到性能报警 目前提供的metrics api 请求总数 api 请求延迟 gateway 请求延迟(s3) s3 操作延迟 gs、azure 操作 go_sql 操作(基于sqlstats) 参考资料 阅读全文

posted @ 2022-02-12 11:45 荣锋亮 阅读(77) 评论(0) 推荐(0)

lakefs hooks 试用

摘要: lakefs 的hooks 是一种比较灵活的能力,我们基于此可以实现数据的加工处理,同时也算是一种弥补lakefs s3 事件的处理 环境准备 docker-compose version: '3' services: lakefs: image: "treeverse/lakefs:${VERSI 阅读全文

posted @ 2022-02-12 11:35 荣锋亮 阅读(82) 评论(0) 推荐(0)

导航