hive - 随笔分类 - dairui130

hive引擎的选择：tez和spark

摘要：背景 mr引擎在hive 2中将被弃用。官方推荐使用tez或spark等引擎。选择 tez 使用有向无环图。内存式计算。 spark 可以同时作为批式和流式的处理引擎，减少学习成本。问题&&不便 tez：在hive sql中使用了union 或 join操作 tez会将任务切分,每个小任务，创阅读全文

posted @ 2019-05-30 12:10 dairui130 阅读(2902) 评论(0) 推荐(0)

元数据概念及分类

摘要：转自https://mp.weixin.qq.com/s/efh5JRmPfYmBTG5x8b30lA 1.物理元数据描述物理资源的元数据，包括但不限于服务器、操作系统、机房位置等信息。 2.数据源元数据描述数据源的元数据，通常包括四类信息：数据源地址（IP、PORT等）物理拓扑（主备、角色阅读全文

posted @ 2019-05-09 14:11 dairui130 阅读(7527) 评论(0) 推荐(0)

hive on mr 参数设置

摘要：set mapreduce.map.memory.mb = 4096; set mapreduce.reduce.memory.mb = 4096; 阅读全文

posted @ 2019-05-09 11:58 dairui130 阅读(432) 评论(0) 推荐(0)

hive on spark 常用配置

摘要：常用设置任务占用资源计算 cores ：核心数executor.memory ：单个excutor分配内存executor.instances=10：executor个数任务占用总核心数：2 * 10 + 1 = 21 1是driver占用的核数占用总内存：2 * 4 * 10 = 40 阅读全文

posted @ 2019-05-09 11:17 dairui130 阅读(3296) 评论(0) 推荐(0)

hive on spark 释放session资源

摘要：背景启动hive时，可以看到2.0以后的版本，将要弃用mr引擎，官方建议使用spark，tez等引擎。 spark同时支持批式流式处理，可以减少学习成本。所以选用了spark作为执行引擎。 hive on spark 参数优化使用hive on spark 默认只用2个container。任务处阅读全文

posted @ 2019-05-05 13:34 dairui130 阅读(1526) 评论(0) 推荐(0)

hive on spark 参数设置

摘要：set spark.executor.instances=20; set spark.executor.cores=5; set spark.executor.memory=5G; 阅读全文

posted @ 2019-04-26 22:54 dairui130 阅读(790) 评论(0) 推荐(0)

hive 数值计算函数

摘要：Hive数值计算函数 (1)round(45.666,2)作用：四舍五入，保留2位小数 ceil(45.6) 作用：向上取整 floor(45.6) 作用：向下取整 (2)rand()返回一个0到1范围内的随机数 (3)exp(double a)返回自然对数e的a次方ln(double a)返回a的阅读全文

posted @ 2019-04-23 11:23 dairui130 阅读(1001) 评论(0) 推荐(0)

hive -help hive命令行执行sql参数

摘要：在shell命令行执行结果如下：我们逐一解释一下：阅读全文

posted @ 2019-04-22 19:20 dairui130 阅读(1897) 评论(0) 推荐(0)

hive 函数 nvl()

摘要：首先用desc function，查看hive给出的函数解释如果为空，则返回default值。结果是0. 类似用法的函数还有：阅读全文

posted @ 2019-04-21 17:31 dairui130 阅读(7577) 评论(0) 推荐(0)

UDF函数解码url

摘要：背景 URL 的编码是ASCII十六进制格式。数仓接受到前端上报的URL，要对URL字段解码。如要将解码为: 方式 hive sql中，通过反射调用java.net.URLDecoder方法问题实践中发现，部分https开头的url解析不完整。例如解码下面的URL，通过上面的方法，结果是阅读全文

posted @ 2019-04-18 16:34 dairui130 阅读(1298) 评论(0) 推荐(0)

hive 添加和删除分区

摘要：命令如下：增加分区删除分区阅读全文

posted @ 2019-04-15 18:58 dairui130 阅读(614) 评论(0) 推荐(0)

shell 命令 grep -R 查询包含指定内容的文件

摘要：grep -R 举个栗子，在有上百个sql文件的目录下，查找使用 spark引擎执行的文件。代码是：返回的就是包含 spark 的sql文件名。阅读全文

posted @ 2019-04-15 18:56 dairui130 阅读(10895) 评论(0) 推荐(0)

azkaban disable 停用部分工作流

摘要：在使用azkaban作为调度工具的时候，难免遇到只需要跑工作流某部分的情况，这时需要用到停用部分工作的操作，如图：阅读全文

posted @ 2019-04-15 15:23 dairui130 阅读(496) 评论(0) 推荐(0)

hive 命令行传入参数

摘要：azkban实现任务重跑我们执行sql的方式是将hql文件上传到服务器本地。然后执行shell命令注：hive -e 是执行依据短sql，hive -f是执行hql文件 test_scheduler.hql的内容是需要执行的sql语句，参数的写法如下图： azkaban 传入参数 1.配置job 阅读全文

posted @ 2019-04-09 23:49 dairui130 阅读(1651) 评论(0) 推荐(0)

摘要：set hive.merge.mapfiles=true; set hive.merge.mapredfiles=true; set hive.merge.size.per.task=100000000; set mapred.task.timeout=60000000; set hive.exec.compress.intermediate=true; set hive.exec.parall... 阅读全文

posted @ 2019-04-09 21:47 dairui130 阅读(325) 评论(0) 推荐(0)

hive 语法 case when 语法

摘要：注意： end不能少阅读全文

posted @ 2019-04-09 17:36 dairui130 阅读(4262) 评论(0) 推荐(0)

hive 函数 current_date()

摘要：current_date() 获取当天时间结果是实际操作中，这种写法只能获取日期是今天的数据，不适合数据重跑。更合适的写法是，将日期作为外部参数传入：阅读全文

posted @ 2019-04-08 13:25 dairui130 阅读(11632) 评论(0) 推荐(0)

python 读取hive数据

摘要：话不多说，直接上代码部署时遇到一个问题：解决方法是：原因是某些包没有关联上，装包时，加上[hive]后缀阅读全文

posted @ 2019-03-31 16:44 dairui130 阅读(7952) 评论(1) 推荐(0)

CI、CD和dev-ops概念

摘要：传统的开发方式是：需求方提供文档，实现方按照文档一步步开发，中间很少变动和修改。但是随着市场的变化，产品更新迭代的加快，也要求开放方更快的响应变化，用最短的时间开发，部署上线。这样，持续集成(CI coutinuous integration)，持续部署(continuous delivery) 阅读全文

posted @ 2019-03-21 13:40 dairui130 阅读(959) 评论(0) 推荐(0)

hive 修复分区、添加二级分区

摘要：我们在之前的文章中，介绍了二级分区，混合分区，静态分区，动态分区的区别和建表。今天我们聊下，当我们建好分区表。并且通过程序在表的分区目录（location）下，写入了文件。如何在hive中查询到插入的分区数据。假如我们直接查表，会发现因为没有在表的元数据中加入新增的分区信息，导致查不到数据。阅读全文

posted @ 2019-03-19 20:44 dairui130 阅读(2901) 评论(0) 推荐(0)

dairui130

导航

公告

随笔分类 - hive