随笔分类 - Hive & SQL
摘要:http://www.aboutyun.com/thread-14942-1-1.html 问题导读 1、Hive查询语句和SQL查询语句区别与联系。 2、distribute by、group by和Sort by的区别。 3、MapJoin的优缺点是什么? 聚合函数 1.count计数 count(*):不全都是NULL,就加1;count(1):当只要有一列是NULL就不会加1;c...
阅读全文
摘要:select * into 新表名 from (select * from T1 union all select * from T2) 这个语句可以实现将合并的数据追加到一个新表中。 不合并重复数据 select * from T1 union all select * from T2 合并重复数
阅读全文
摘要:Hive虽然强大,但是我们遇到的业务需求必定是千奇百怪的。 在做日志解析的时候,我们会遇到访客,和访次的概念。 对于在2个小时之内的访问,我们认为是访问一次,对于两个小时之外的访问,我们认定是再次访问。 也就是是说,最新一次访问,与上一次访问之间间隔超过2个小时,则算是第二次访问。 用Hive来做过
阅读全文
摘要:--Hive中日期函数总结: --1.时间戳函数 --日期转时间戳:从1970-01-01 00:00:00 UTC到指定时间的秒数 select unix_timestamp(); --获得当前时区的UNIX时间戳 select unix_timestamp('2017-09-15 14:23:0
阅读全文
摘要:Expression not in GROUP BY key ‘ xxx’ 遇到这么一个需求,输入数据为一个ID对应多个name,要求输出数据为ID是唯一的,name随便取一个就可以。 执行以下hive ql语句: 1 2 3 4 5 6 SELECT sid, class_id FROM tabl
阅读全文
摘要:Hive的TRANSFORM关键字提供了在SQL中调用自写脚本的功能,适合实现Hive中没有的功能又不想写UDF的情况。例如,按日期统计每天出现的uid数,通常用如下的SQL 但是,如果我想在reduce阶段对每天的uid形成一个列表,进行排序并输出,这在Hive中没有现成的功能。那么,可以自写脚本
阅读全文
摘要:在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的
阅读全文
摘要:hive文件存储格式包括以下几类: 1、TEXTFILE 2、SEQUENCEFILE 3、RCFILE 4、ORCFILE(0.11以后出现) 其中TEXTFILE为默认格式,建表时不指定默认为这个格式,导入数据时会直接把数据文件拷贝到hdfs上不进行处理; SEQUENCEFILE,RCFILE
阅读全文
摘要:正则匹配字符解释: ^ 表示开头 $ 表示结尾 . 表示任意字符 * 表示任意多个 regexp_extract函数 语法: regexp_extract(string subject, string pattern, int index) 返回值: string 说明: 将字符串subject按照
阅读全文
摘要:hive.exec.parallel参数控制在同一个sql中的不同的job是否可以同时运行,默认为false.下面是对于该参数的测试过程: 测试sql:select r1.a from (select t.a from sunwg_10 t join sunwg_10000000 s on t.a=
阅读全文
摘要:原文地址:电商术语:客单价、UV、PV、转化率、销售额作者:馨闻莲博 UV(独立访客):Unique Visitor,访问您网站的一台电脑客户端为一个访客。00:00-24:00内相同的客户端只会被计算一次。 PV(访问量):PageView,即页面浏览量或点击量,用户每次刷新即被计算一次。 客单价
阅读全文
摘要:很多时候,我们需要将Hive的查询(select)结果保存起来,方便进一步处理或查看。在Hive里面提供了不同的方式来保存查询结果,在这里做下总结: 一、保存结果到本地 方法1:调用hive标准输出,将查询结果写到指定的文件中 这个方法最为常见,笔者也经常使用。sql的查询结果将直接保存到/tmp/
阅读全文
摘要:开发中,经常进行模糊查询或者进行截取字符串进行模糊匹配,常用的就是substr函数或者substring函数。 使用语法: substr(string A, int start),substring(string A, int start) 两者用法一样,两个参数 返回值: string 说明:返回
阅读全文
摘要:补充说明 left outer join where is not null与left semi join的联系与区别:两者均可实现exists in操作,不同的是,前者允许右表的字段在select或where子句中引用,而后者不允许。 除了left outer join,Hive QL中还有rig
阅读全文
摘要:差集定义:一般地,设A,B是两个集合,由所有属于A且不属于B的元素组成的集合,叫做集合A减集合B(或集合A与集合B之差)。 类似地,对于集合A,B,我们把集合{x/x∈A,且x¢B}叫做A与B的差集,记作A-B记作A-B(或A\B); 即A-B={x|x∈A,且x ¢B}(或A\B={x|x∈A,且
阅读全文
摘要:1. If 函数 : if 语法: if(boolean testCondition, T valueTrue, T valueFalseOrNull) 说明: 当条件testCondition为TRUE时,返回valueTrue;否则返回valueFalseOrNull 举例: hive> sel
阅读全文
摘要:1、2018年4月份的用户数、订单量、销量、GMV (不局限与这些统计量,你也可以自己想一些) PS: 订单数就是卖了几单 ; 销量就是卖了多少件,一个订单中可能卖出一件或多件; GMV: Gross Merchandise Volume,是成交总额(一定时间段内)的意思。 在电商网站定义里面是网站
阅读全文
摘要:数据字典:是指对数据的数据项、数据结构、数据流、数据存储、处理逻辑、外部实体等进行定义和描述,其目的是对数据流程图中的各个元素做出详细的说明。 数据字典的主要作用:数据字典和数据流图共同构成系统的逻辑模型。没有流图数据字典难以发挥作用。没有数据字典,数据流图就不严格。 数据字典(Data dicti
阅读全文
摘要:原 Hive作业优化 原 Hive作业优化 原 Hive作业优化 原 Hive学习六:HIVE日志分析(用户画像) 原 Hive学习六:HIVE日志分析(用户画像) 原 Hive学习六:HIVE日志分析(用户画像) 原 Hive学习五--日志案例分析 原 Hive学习五--日志案例分析 原 Hive
阅读全文
摘要:1、Join原则将条目少的表/子查询放在 Join的左边。 原因是在 Join 操作的 Reduce 阶段,位于 Join左边的表的内容会被加载进内存,将条目少的表放在左边,可以有效减少发生内存溢出的几率。当一个小表关联一个超大表时,容易发生数据倾斜,可以用MapJoin把小表全部加载到内存在map
阅读全文

浙公网安备 33010602011771号