随笔分类 - hive
摘要:Hadoop的默认配置通常是使用派生JVM来执行map和Reduce任务的。这时JVM的启动过程可能会造成相当大的开销,尤其是执行的job包含有成百上千task任务的情况。JVM重用可以使得JVM实例在同一个job中重新使用N次。 N的值可以在Hadoop的mapred-site.xml文件中进行配
阅读全文
摘要:最近买了一本hive看,发现书中有一个错误: 我的验证如下: 1.外部表数据存在自己表所属的目录下 2.还发现了 CTAS 操作不能 建立外部表
阅读全文
摘要:1.一个表中的数据不存在另一个表中 2.一个表中的数据 存在另一个表中:
阅读全文
摘要:在数据分析数据差异的时候 经常用到一个图叫做迁移矩阵。 其中里面的值可以是数量也可以是百分比,我们可以从一个时间点明确的看到在另一个时间点或者另一个时间点 子类之间数量迁移。 比如这次我在公司与业务核对星级客户数据的时候就用sql实现了迁移矩阵 思路就是对数据先进行行转列,再进行统计。
阅读全文
摘要:在处理流水增量表的时候,出现了一个判定的失误。 因为左外关联,可能会出现b表数据不存在 则b.b2 is null , if(a.a2<>b.b2,1,0) as diff,null值的判断只能使用is ,is not 所以处理方式: 其他: employee表 查询employee hive 中n
阅读全文
摘要:1 nike 20180901 20180905 2 nike 20180903 20180906 3 nike 20180909 20180915 4 oppo 20180804 20180805 5 oppo 20180804 20180815 6 vivo 20180815 201...
阅读全文
摘要:Hive去重统计 先说核心: 经常在公司还能看到。很多老人用distinct去重,很容易数据量大的时候的数据倾斜。感谢上次冲哥的指正。 相信使用Hive的人平时会经常用到去重统计之类的吧,但是好像平时很少关注这个去重的性能问题,但是当一个表的数据量非常大的时候,会发现一个简单的count(disti
阅读全文
摘要:窗口函数(window functions)对多行进行操作,并为查询中的每一行返回一个值。 OVER()子句能将窗口函数与其他分析函数(analytical functions)和报告函数(reporting functions)区分开来。 1. 常用窗口函数 下表列出了一些窗口函数以及描述信息:
阅读全文
摘要:left semi join VS left join思考: 建表 插入数据 left semi join:==>left semi +inner join 可以这样理解 left join:
阅读全文
摘要:说真的,这个模式在我做sql开发的岁月里,从未用到过。用的都是动态分区非严格模式。 我的好友东岳同学在车上问我。确实问到了我 。体现出了我基本功不扎实的情况。 1.what is Hive严格模式 Hive提供了一个严格模式,可以防止用户执行那些可能产生意向不到的不好的效果的查询。说通俗一点就是这种
阅读全文
摘要:hive: 基于hadoop,数据仓库软件,用作OLAP OLAP:online analyze process 在线分析处理OLTP:online transaction process 在线事务处理 事务: ACID A:atomic 原子性 C: consistent 一致性 I:isolat
阅读全文
摘要:1. 概述 在传统数据库(如:MYSQL)中,JOIN操作是非常常见且非常耗时的。而在HADOOP中进行JOIN操作,同样常见且耗时,由于Hadoop的独特设计思想,当进行JOIN操作时,有一些特殊的技巧。 本文首先介绍了Hadoop上通常的JOIN实现方法,然后给出了几种针对不同输入数据集的优化方
阅读全文
摘要:hive 的 join 类型有好几种,其实都是把 MR 中的几种方式都封装实现了,其中 join on、left semi join 算是里边具有代表性,且使用频率较高的 join 方式。 1、联系 他们都是 hive join 方式的一种,join on 属于 common join(shuffl
阅读全文
摘要:案例情况:同事使用公司数据探查跑一段代码,部分代码如下,报错,显示不支持in内的子查询。但是直接用虚拟机去跑的话代码没有任何报错,也出结果,很奇怪。 Hive对子查询的支持很有限。它只允许子查询出现在SELECT语句的FROM子句中。如果发现Hive不支持你写的子查询,可以看看能不能把它写成连接操作
阅读全文
摘要:SET NOCOUNT ON , SET NOCOUNT OFF当 SET NOCOUNT 为 ON 时,不返回计数(表示受 Transact-SQL 语句影响的行数)。当 SET NOCOUNT 为 OFF 时,返回计数。如果存储过程中包含的一些语句并不返回许多实际的数据, 则该设置由于大量减少了
阅读全文
摘要:Hive中的日志分为两种1. 系统日志,记录了hive的运行情况,错误状况。2. Job 日志,记录了Hive 中job的执行的历史过程。 1.系统日志 系统日志存储在什么地方呢 ?在hive/conf/ hive-log4j.properties 文件中记录了Hive日志的存储情况,默认的存储情况
阅读全文
摘要:str_to_map(字符串参数, 分隔符1, 分隔符2) 使用两个分隔符将文本拆分为键值对。 分隔符1将文本分成K-V对,分隔符2分割每个K-V对。对于分隔符1默认分隔符是 ',',对于分隔符2默认分隔符是 '=' 我们先介绍一下这个函数的应用场景。 Z表又被称之为拉链表。在同一个分区中主键是st
阅读全文
摘要:本文介绍Hive元数据库中一些重要的表结构及用途,方便Impala、SparkSQL、Hive等组件访问元数据库的理解。 1、存储Hive版本的元数据表(VERSION) 该表比较简单,但很重要。 VER_ID SCHEMA_VERSION VERSION_COMMENT ID主键 Hive版本 版
阅读全文
摘要:lateral view用于和split, explode等UDTF一起使用,它能够将一列数据拆成多行数据,在此基础上可以对拆分后的数据进行聚合。 一个简单的例子,假设我们有一张表pageAds,它有两列数据,第一列是pageid string,第二列是adid_list,即用逗号分隔的广告ID集合
阅读全文

浙公网安备 33010602011771号