摘要:presto简单介绍 presto是一个分布式的sql交互式查询引擎。可以达到hive查询效率的5到10倍。支持多种数据源的秒级查询。 presto是基于内存查询的,这也是它为什么查询快的原因。除了基于内存,presto还使用了 向量计算, 动态编译执⾏计划 优化的ORC和Parquet Reade
阅读全文
摘要:hive的分区概念,相信大家都非常了解了。通过将数据放在hdfs不同的文件目录下,查表时,只扫描对应分区下的数据,避免了全表扫描。 提升了查询效率。 关于hive分区,我们还会用到多级分区、动态分区、混合分区,这些概念是什么含义,又该在何时使用呢? 静态分区 先说下静态分区。静态分区就是人为指定分区
阅读全文
摘要:转自:https://blog.csdn.net/csdnliuxin123524/article/details/81052974 桶表(bucket table): 原理: 分区表是按照经常查询的字段做不同的分区,查询时就可以按分区进行查了.这样可以减小全局扫描提高查询的速度.分区表的缺陷就是选
阅读全文
摘要:阿里的《大数据之路》记录了阿里的大数据系统的产生,演化和设计思路。是大数据进阶的经典书籍。 本篇读书笔记会按照《大数据之路》的目录结构,记录我在阅读这本书的时候, 第一章:总述 待更新。。。
阅读全文
摘要:Git介绍 git是当今最强大的本地的分布式代码版本管理工具。 git的核心概念与操作:开发环境,本地仓库,远程仓库。他们的关系如下图: 与CVS及SVN的比较: CVS及SVN都是集中式的版本控制系统,而Git是分布式版本控制系统。 集中式版本控制系统是指:代码仅放中央服务器上,每次开发时必须联网
阅读全文
摘要:这篇文章我会从业务中关注的: 1. 存储大小 2.查询效率 3.是否支持表结构变更既数据版本变迁 5.能否避免分隔符问题 6.优势和劣势总结 几方面完整的介绍下hive中数据以下几种数据格式:textfile,parquent,orc,thrift,avro,protubuf 更新中... 预计3月
阅读全文
摘要:如何用hive sql 实现 contain 查询? 需求:判断某个字符串是否在另一个字符串中? 方法: 可以自定义函数,但是用正则匹配regexp更方便 代码如下: 首先,查看regexp正则函数的用法: 那么用正则实现包含功能的代码是: 表示 'QQqq' 匹配 '.*qq.*' 为真。QQqq
阅读全文
摘要:hive提供了直接处理url的函数 parse_url desc funtion 的解释是: partToExtract的选项包含[HOST,PATH,QUERY,REF,PROTOCOL,FILE,AUTHORITY,USERINFO] 使用方法 常用的参数有 "HOST" 和 "PATH"
阅读全文
摘要:需求--统计hive某张表type字段不同取值的数据量 我们已知某张表的type的取值是1,2,3,4,5,想要统计不同type的数据量,并清晰的展现出来。可以通过union all 的方式,sql如下: 得到的结果如下:
阅读全文
摘要:我们应该都清楚order by 的含义: 根据某个字段对输出的数据排序,因为只有一个reducer,所以查询效率较慢。 那么hive中,另外两个排序,distribute by和cluster by的含义是什么呢? distribute by 分区排序 直接上例子,hive中有张工资表:salary
阅读全文
摘要:整理业务库的库表字段和字段含义的时候,遇到了码表的概念,码表是什么,和维度表又是什么关系呢? 首先,码表没有明确的定义。 百度搜索码表,可以看到和数据处理相关的解释是:码表是 编码表(或代码表)的简称。 编码表: 是一种代码说明表格。 用来帮助用户明确无解释数据和字符 代码的含义。 例如:性别码表的
阅读全文