dairui130

导航

随笔分类 -  数据仓库

上一页 1 2

presto调研和json解析函数的使用
摘要:presto简单介绍 presto是一个分布式的sql交互式查询引擎。可以达到hive查询效率的5到10倍。支持多种数据源的秒级查询。 presto是基于内存查询的,这也是它为什么查询快的原因。除了基于内存,presto还使用了 向量计算, 动态编译执⾏计划 优化的ORC和Parquet Reade 阅读全文

posted @ 2019-03-15 14:35 dairui130 阅读(23181) 评论(0) 推荐(0)

hive 动态分区与混合分区
摘要:hive的分区概念,相信大家都非常了解了。通过将数据放在hdfs不同的文件目录下,查表时,只扫描对应分区下的数据,避免了全表扫描。 提升了查询效率。 关于hive分区,我们还会用到多级分区、动态分区、混合分区,这些概念是什么含义,又该在何时使用呢? 静态分区 先说下静态分区。静态分区就是人为指定分区 阅读全文

posted @ 2019-03-13 10:26 dairui130 阅读(2682) 评论(0) 推荐(0)

hive 桶表
摘要:转自:https://blog.csdn.net/csdnliuxin123524/article/details/81052974 桶表(bucket table): 原理: 分区表是按照经常查询的字段做不同的分区,查询时就可以按分区进行查了.这样可以减小全局扫描提高查询的速度.分区表的缺陷就是选 阅读全文

posted @ 2019-03-11 14:00 dairui130 阅读(242) 评论(0) 推荐(0)

大数据之路 读书笔记
摘要:阿里的《大数据之路》记录了阿里的大数据系统的产生,演化和设计思路。是大数据进阶的经典书籍。 本篇读书笔记会按照《大数据之路》的目录结构,记录我在阅读这本书的时候, 第一章:总述 待更新。。。 阅读全文

posted @ 2019-03-11 12:44 dairui130 阅读(445) 评论(0) 推荐(0)

Git和SourceTree配合使用
摘要:Git介绍 git是当今最强大的本地的分布式代码版本管理工具。 git的核心概念与操作:开发环境,本地仓库,远程仓库。他们的关系如下图: 与CVS及SVN的比较: CVS及SVN都是集中式的版本控制系统,而Git是分布式版本控制系统。 集中式版本控制系统是指:代码仅放中央服务器上,每次开发时必须联网 阅读全文

posted @ 2019-03-10 21:42 dairui130 阅读(3823) 评论(0) 推荐(0)

hive中数据存储格式对比:textfile,parquent,orc,thrift,avro,protubuf
摘要:这篇文章我会从业务中关注的: 1. 存储大小 2.查询效率 3.是否支持表结构变更既数据版本变迁 5.能否避免分隔符问题 6.优势和劣势总结 几方面完整的介绍下hive中数据以下几种数据格式:textfile,parquent,orc,thrift,avro,protubuf 更新中... 预计3月 阅读全文

posted @ 2019-03-07 17:58 dairui130 阅读(845) 评论(1) 推荐(0)

hive 实现类似 contain 包含查询
摘要:如何用hive sql 实现 contain 查询? 需求:判断某个字符串是否在另一个字符串中? 方法: 可以自定义函数,但是用正则匹配regexp更方便 代码如下: 首先,查看regexp正则函数的用法: 那么用正则实现包含功能的代码是: 表示 'QQqq' 匹配 '.*qq.*' 为真。QQqq 阅读全文

posted @ 2019-03-07 15:09 dairui130 阅读(26197) 评论(0) 推荐(0)

hive函数 parse_url的使用
摘要:hive提供了直接处理url的函数 parse_url desc funtion 的解释是: partToExtract的选项包含[HOST,PATH,QUERY,REF,PROTOCOL,FILE,AUTHORITY,USERINFO] 使用方法 常用的参数有 "HOST" 和 "PATH" 阅读全文

posted @ 2019-03-07 14:47 dairui130 阅读(982) 评论(0) 推荐(0)

数据统计--union all 执行多条sql
摘要:需求--统计hive某张表type字段不同取值的数据量 我们已知某张表的type的取值是1,2,3,4,5,想要统计不同type的数据量,并清晰的展现出来。可以通过union all 的方式,sql如下: 得到的结果如下: 阅读全文

posted @ 2019-03-05 21:07 dairui130 阅读(528) 评论(0) 推荐(0)

hive的 order by & distribute by & cluter by
摘要:我们应该都清楚order by 的含义: 根据某个字段对输出的数据排序,因为只有一个reducer,所以查询效率较慢。 那么hive中,另外两个排序,distribute by和cluster by的含义是什么呢? distribute by 分区排序 直接上例子,hive中有张工资表:salary 阅读全文

posted @ 2019-03-03 17:17 dairui130 阅读(310) 评论(0) 推荐(0)

什么是码表,什么是维度表?
摘要:整理业务库的库表字段和字段含义的时候,遇到了码表的概念,码表是什么,和维度表又是什么关系呢? 首先,码表没有明确的定义。 百度搜索码表,可以看到和数据处理相关的解释是:码表是 编码表(或代码表)的简称。 编码表: 是一种代码说明表格。 用来帮助用户明确无解释数据和字符 代码的含义。 例如:性别码表的 阅读全文

posted @ 2019-03-03 15:20 dairui130 阅读(11052) 评论(0) 推荐(0)

上一页 1 2