正文内容加载中...
posted @ 2019-07-30 22:12 叁金 阅读 (70) 评论 (0) 编辑
摘要:Presto因其优秀的查询速度被我们所熟知,它本身基于MPP架构,可以快速的对Hive数据进行查询,同时支持扩展Connector,目前对Mysql、MongoDB、Cassandra、Hive等等一系列的数据库都提供了Connector进行支持。是我们常用的SQL on Hadoop的解决方案。那 阅读全文
posted @ 2019-07-23 22:16 叁金 阅读 (217) 评论 (0) 编辑
摘要:特别声明:本文来源于掘金,“预留”发表的 "Apache Calcite 论文学习笔记" 最近在关注大数据处理的技术和开源产品的实现,发现很多项目中都提到了一个叫 Apache Calcite 的东西。同样的东西一两次见不足为奇,可再三被数据处理领域的各个不同时期的产品提到就必须引起注意了。为此也搜 阅读全文
posted @ 2019-07-19 13:05 叁金 阅读 (50) 评论 (0) 编辑
摘要:之前我们提到大数据的时候就会提到Hadoop,Hadoop是大数据的基础框架,是大数据技术的代表。提到HDFS、MapReduce、Yarn,提到HBase、Hive、TEZ等Hadoop生态圈中的一个又一个开源组件。但是最近好像有点不一样了。 Hadoop三巨头 曾经的三巨头之一MapR向加州就业 阅读全文
posted @ 2019-07-18 23:14 叁金 阅读 (620) 评论 (0) 编辑
摘要:Hive作为SQL on Hadoop最稳定、应用最广泛的查询引擎被大家所熟知。但是由于基于MapReduce,查询执行速度太慢而逐步引入其他的近实时查询引擎如Presto等。值得关注的是Hive目前支持MapReduce、Tez和Spark三种执行引擎,同时Hive3也会支持联邦数据查询的功能。所 阅读全文
posted @ 2019-07-16 20:33 叁金 阅读 (216) 评论 (0) 编辑
摘要:前言 数据时代,数据的多源集成和快速检索查询是第一步,配上数据分析及可视化才能算窥得大数据一角。 创建这个项目的主要目的一是对前期工作的一些总结,二是提升自己。 这里简单介绍一下sqlpro这个项目的核心功能。 本项目基于python的flask web框架。提供简单的页面(起初准备用vue写前端, 阅读全文
posted @ 2019-03-09 11:54 叁金 阅读 (564) 评论 (0) 编辑
摘要:文章导读: 1. 什么是RBO? 2. 什么是CBO? 我们在工作中经常会听到这样的声音:“SQL查询慢?你给数据库加个索引啊”。虽然加索引并不一定能解决问题,但是这初步的体现了SQL优化的思想。 而数据库主要由三部分组成,分别是 解析器 、 优化器 和 执行引擎 。 其执行逻辑是我们输入的SQL语 阅读全文
posted @ 2019-03-09 11:43 叁金 阅读 (118) 评论 (0) 编辑
摘要:文章导读: 1. 什么是Calcite? 2. Calcite的主要功能? 3. 如何快速使用Calcite? 什么是Calcite Apache Calcite是一个动态数据管理框架,它具备很多典型数据库管理系统的功能,比如SQL解析、SQL校验、SQL查询优化、SQL生成以及数据连接查询等,但是 阅读全文
posted @ 2019-03-09 11:38 叁金 阅读 (440) 评论 (0) 编辑
摘要:文章导读: 对称加密 非对称加密 数字证书 Kerberos认证流程 Hadoop生态利用Kerberos认证机制来识别可靠的服务和节点,保障Hadoop集群的安全,那么Kerberos到底是什么?为什么要选择它来进行认证?Kerberos认证的流程又是怎样的呢?让我们带着这些问题看一下这篇文章。 阅读全文
posted @ 2018-11-29 09:38 叁金 阅读 (313) 评论 (0) 编辑
摘要:问题导读: 1. 什么是数据仓库 2. 数据仓库与数据库的区别 3. 数据仓库的适用场景 Hive作为Hadoop生态圈重要的一员已经被我们所熟知,它作为一个基于Hadoop的数据仓库工具,用来做离线的数据分析工作。那么什么是数据仓库,它与我们经常使用的数据库有什么不同呢? 什么是数据仓库 数据仓库 阅读全文
posted @ 2018-10-29 22:50 叁金 阅读 (338) 评论 (0) 编辑