java/Java Pyton 大数据 Hadoop Spark

摘要:docker本身,其实仅仅是提供了一种沙盒的机制,对不同应用进行隔离。镜像是它出彩的一个设计,可以让开发者们快速部署应用。但这对大型应用管理来说,是远远不够的。开发者们在意识到这个问题后,提出了编排这个概念,从而引发的新的纷争。。。 阅读全文
posted @ 2020-08-10 20:49 zzzzMing 阅读(856) 评论(0) 推荐(0) 编辑
摘要:分布式系统一致性难吗?很难,难的哪里?最后又该如何解决。 阅读全文
posted @ 2020-02-28 19:37 zzzzMing 阅读(888) 评论(0) 推荐(1) 编辑
摘要:前两次讲了 Spark RPC 的基础内容以及源码时序分析。这次我们来看看Spark 如何用 RPC 实现心跳。 阅读全文
posted @ 2019-01-17 20:40 zzzzMing 阅读(1021) 评论(0) 推荐(2) 编辑
摘要:通常情况下,我们都是使用一套kafka集群处理业务。但有些情况需要使用另一套kafka集群来进行数据同步和备份,比如需要更高的 SLA~ 阅读全文
posted @ 2021-01-12 21:00 zzzzMing 阅读(138) 评论(0) 推荐(0) 编辑
摘要:在kafka2.4的时候,社区推出两个新feature来解决重平衡过程中stop the world的问题。 1. Incremental Rebalance Protocol(以下简称cooperative协议):改进了eager协议(即旧重平衡协议)的问题,避免STW的发生 2. static membership:避免重起或暂时离开的消费者触发重平衡 本篇接下来主要介绍这两点。 阅读全文
posted @ 2020-12-23 20:19 zzzzMing 阅读(104) 评论(0) 推荐(0) 编辑
摘要:最近看了kafka2.4新版本的一些功能特性,不得不说,在kafka2.0以后,kafka自身就比较少推出一些新的feature了,基本都是一些修修补补的东西。倒是kafka connect和kafka stream相关的开发工作做的比较多。可能kafka的野心也不局限于要当一个中间件,而是要实现一 阅读全文
posted @ 2020-12-02 20:31 zzzzMing 阅读(144) 评论(0) 推荐(0) 编辑
摘要:用户认证功能,是一个成熟组件不可或缺的功能。在0.9版本以前kafka是没有用户认证模块的(或者说只有SSL),好在kafka0.9版本以后逐渐发布了多种用户认证功能,弥补了这一缺陷(这里仅介绍SASL)。 本篇会先介绍当前kafka的四种认证方式,然后过一遍部署SASL/PLAIN认证功能的流程。 阅读全文
posted @ 2020-11-23 19:44 zzzzMing 阅读(432) 评论(0) 推荐(0) 编辑
摘要:上一篇主要对Calcite的背景,技术特点,SQL的RBO和CBO等做了一个初步的介绍。深入浅出Calcite与SQL CBO(Cost-Based Optimizer)优化 这一篇会从Hive入手,介绍Hive如何使用Calcite来优化自己的SQL,主要从源码的角度进行介绍。文末附有一篇其他博主 阅读全文
posted @ 2020-09-22 19:30 zzzzMing 阅读(772) 评论(0) 推荐(0) 编辑
摘要:前阵子工作上需要用到Calcite做一些事情,然后发现这个东西也是蛮有意思的,就花了些时间研究了一下。本篇主要围绕SQL 优化这块来介绍Calcite,后面会介绍Hive如何Calcite进行SQL的优化。 此外,也将Calcite的一些使用样例整理成到github,https://github.c 阅读全文
posted @ 2020-09-16 18:59 zzzzMing 阅读(554) 评论(0) 推荐(0) 编辑
摘要:docker本身,其实仅仅是提供了一种沙盒的机制,对不同应用进行隔离。镜像是它出彩的一个设计,可以让开发者们快速部署应用。但这对大型应用管理来说,是远远不够的。开发者们在意识到这个问题后,提出了编排这个概念,从而引发的新的纷争。。。 阅读全文
posted @ 2020-08-10 20:49 zzzzMing 阅读(856) 评论(0) 推荐(0) 编辑
摘要:最近搭了Kylin Streaming并初步测试了下,觉得这个东西虽然有些限制,但还是蛮好用的,所以系统写篇文章总结下其原理和一些配置。 阅读全文
posted @ 2020-07-27 21:18 zzzzMing 阅读(372) 评论(0) 推荐(0) 编辑
摘要:不知不觉,2020年已经过去一半了,最近突然反应过来自己也看了不少文献资料了,就想着把看过的文献和觉得比较好的书籍做一个总结,基本都是大数据分布式领域的,回顾自己学识的同时,也给想从事或这个领域的小伙伴一些参考 阅读全文
posted @ 2020-07-16 19:32 zzzzMing 阅读(593) 评论(0) 推荐(1) 编辑
摘要:本篇主要是根据AnalyticDB的论文,来讨论AnalyticDB出现的背景,各个模块的设计,一些特性的解析。可能还会在一些点上还会穿插一些与当前业界开源实现的比对,希望能够有一个更加深入的探讨。OK,那我们开始吧。 AnalyticDB介绍与背景 要说AnalyticDB,那起码得知道它是干什么 阅读全文
posted @ 2020-07-01 20:07 zzzzMing 阅读(1057) 评论(0) 推荐(2) 编辑