数据仓库 - 随笔分类(第2页) - dairui130

presto调研和json解析函数的使用

摘要：presto简单介绍 presto是一个分布式的sql交互式查询引擎。可以达到hive查询效率的5到10倍。支持多种数据源的秒级查询。 presto是基于内存查询的，这也是它为什么查询快的原因。除了基于内存，presto还使用了向量计算，动态编译执⾏计划优化的ORC和Parquet Reade 阅读全文

posted @ 2019-03-15 14:35 dairui130 阅读(23253) 评论(0) 推荐(0)

hive 动态分区与混合分区

摘要：hive的分区概念，相信大家都非常了解了。通过将数据放在hdfs不同的文件目录下，查表时，只扫描对应分区下的数据，避免了全表扫描。提升了查询效率。关于hive分区，我们还会用到多级分区、动态分区、混合分区，这些概念是什么含义，又该在何时使用呢？静态分区先说下静态分区。静态分区就是人为指定分区阅读全文

posted @ 2019-03-13 10:26 dairui130 阅读(2702) 评论(0) 推荐(0)

hive 桶表

摘要：转自：https://blog.csdn.net/csdnliuxin123524/article/details/81052974 桶表(bucket table): 原理: 分区表是按照经常查询的字段做不同的分区,查询时就可以按分区进行查了.这样可以减小全局扫描提高查询的速度.分区表的缺陷就是选阅读全文

posted @ 2019-03-11 14:00 dairui130 阅读(275) 评论(0) 推荐(0)

大数据之路读书笔记

摘要：阿里的《大数据之路》记录了阿里的大数据系统的产生，演化和设计思路。是大数据进阶的经典书籍。本篇读书笔记会按照《大数据之路》的目录结构，记录我在阅读这本书的时候，第一章：总述待更新。。。阅读全文

posted @ 2019-03-11 12:44 dairui130 阅读(454) 评论(0) 推荐(0)

Git和SourceTree配合使用

摘要：Git介绍 git是当今最强大的本地的分布式代码版本管理工具。 git的核心概念与操作：开发环境，本地仓库，远程仓库。他们的关系如下图：与CVS及SVN的比较： CVS及SVN都是集中式的版本控制系统，而Git是分布式版本控制系统。集中式版本控制系统是指：代码仅放中央服务器上，每次开发时必须联网阅读全文

posted @ 2019-03-10 21:42 dairui130 阅读(3839) 评论(0) 推荐(0)

hive中数据存储格式对比：textfile,parquent,orc,thrift,avro,protubuf

摘要：这篇文章我会从业务中关注的： 1. 存储大小 2.查询效率 3.是否支持表结构变更既数据版本变迁 5.能否避免分隔符问题 6.优势和劣势总结几方面完整的介绍下hive中数据以下几种数据格式：textfile,parquent,orc,thrift,avro,protubuf 更新中... 预计3月阅读全文

posted @ 2019-03-07 17:58 dairui130 阅读(862) 评论(1) 推荐(0)

hive 实现类似 contain 包含查询

摘要：如何用hive sql 实现 contain 查询？需求：判断某个字符串是否在另一个字符串中？方法：可以自定义函数，但是用正则匹配regexp更方便代码如下：首先，查看regexp正则函数的用法：那么用正则实现包含功能的代码是：表示 'QQqq' 匹配 '.*qq.*' 为真。QQqq 阅读全文

posted @ 2019-03-07 15:09 dairui130 阅读(26227) 评论(0) 推荐(0)

hive函数 parse_url的使用

摘要：hive提供了直接处理url的函数 parse_url desc funtion 的解释是： partToExtract的选项包含[HOST,PATH,QUERY,REF,PROTOCOL,FILE,AUTHORITY,USERINFO] 使用方法常用的参数有 "HOST" 和 "PATH" 阅读全文

posted @ 2019-03-07 14:47 dairui130 阅读(1025) 评论(0) 推荐(0)

数据统计--union all 执行多条sql

摘要：需求--统计hive某张表type字段不同取值的数据量我们已知某张表的type的取值是1，2，3，4，5，想要统计不同type的数据量，并清晰的展现出来。可以通过union all 的方式，sql如下：得到的结果如下：阅读全文

posted @ 2019-03-05 21:07 dairui130 阅读(565) 评论(0) 推荐(0)

hive的 order by & distribute by & cluter by

摘要：我们应该都清楚order by 的含义：根据某个字段对输出的数据排序，因为只有一个reducer，所以查询效率较慢。那么hive中，另外两个排序，distribute by和cluster by的含义是什么呢？ distribute by 分区排序直接上例子，hive中有张工资表：salary 阅读全文

posted @ 2019-03-03 17:17 dairui130 阅读(351) 评论(0) 推荐(0)

什么是码表，什么是维度表？

摘要：整理业务库的库表字段和字段含义的时候，遇到了码表的概念，码表是什么，和维度表又是什么关系呢？首先，码表没有明确的定义。百度搜索码表，可以看到和数据处理相关的解释是：码表是编码表（或代码表）的简称。编码表：是一种代码说明表格。用来帮助用户明确无解释数据和字符代码的含义。例如：性别码表的阅读全文

posted @ 2019-03-03 15:20 dairui130 阅读(11205) 评论(0) 推荐(0)

dairui130

导航

公告

随笔分类 - 数据仓库