公告

随笔分类 - Hive & Hadoop & Hue

摘要：order by rand() limit 100 1. 可用于普通随机筛选 2. 也可用于row_number() 等函数的排序里作为随机排序。阅读全文

posted @ 2019-01-28 20:13 Suckseedeva 阅读(4868) 评论(0) 推荐(1)

摘要：str_to_map(字符串参数, 分隔符1, 分隔符2) 使用两个分隔符将文本拆分为键值对。分隔符1将文本分成K-V对，分隔符2分割每个K-V对。对于分隔符1默认分隔符是 ','，对于分隔符2默认分隔符是 '='。例子： 1. 创建map字段 2. concat + str_to_map函数阅读全文

posted @ 2018-12-24 14:24 Suckseedeva 阅读(26984) 评论(0) 推荐(0)

sqoop 问题以及小tips

摘要：1. Sqoop import 任务里把原来NULL的转化成字符串‘null’了。解决方法：先： alter table ${table_name} SET SERDEPROPERTIES('serialization.null.format' = '\\N'); 再： sqoop代码最后面加上阅读全文

posted @ 2018-12-21 15:18 Suckseedeva 阅读(546) 评论(0) 推荐(0)

Hive 特殊日期截取 tips

摘要：获取当前日期 SELECT CURRENT_DATE, CURRENT_TIMESTAMP, from_unixtime(unix_timestamp()); 上个月1号 concat(substr(date_sub('${bizdate}',1),1,7),'-01') 上个月最后一天 date_ 阅读全文

posted @ 2018-12-20 16:13 Suckseedeva 阅读(2383) 评论(0) 推荐(0)

Hive实现交叉二维分析的小语句

摘要：1. 梳理出你要的列和行维度列维度: 每一周行维度: 年级 + 学科 + 班型 2. 对数据按周增序进行聚合 (即根据列维度) ,生成list concat_ws 和 collect_list (collect_set 会去重后再聚合) 顺序随机 sort_array 只能增序，要倒序排的话在子阅读全文

posted @ 2018-12-18 16:42 Suckseedeva 阅读(1105) 评论(0) 推荐(0)

HDFS 常用命令行：

摘要：1. 查看各库的存储大小 hdfs dfs -du -h /user/hive/warehouse 2. 删除HDFS 文件 hdfs dfs -rmr 绝对路径名例如：hdfs dfs -rmr /user/hive/warehouse/xhx_dw.db/dw_homework_questio 阅读全文

posted @ 2018-07-19 11:55 Suckseedeva 阅读(948) 评论(0) 推荐(0)

Hive表中的NULL值处理

摘要：1 MySQL 到 Hive 表的sqoop任务把原本的NULL 变成字符串 ‘null’ 了 alter table ${table_name} SET SERDEPROPERTIES('serialization.null.format' = '\\N'); -- 修改表的NULL值属性 sq 阅读全文

posted @ 2018-07-10 10:32 Suckseedeva 阅读(4251) 评论(0) 推荐(0)

Hive 任务优化 tips

摘要：1. 集群任务队列: 一般有 root.default, root.online, root.offline, root.spark-thiftserver Hue提交的任务一般默认在 default队列如果是紧急任务，可以提交到其他队列，会快很多方法：指定队列 set mapreduce.j 阅读全文

posted @ 2018-07-10 10:27 Suckseedeva 阅读(478) 评论(0) 推荐(0)

Hive表种map字段的查询取用

摘要：建表可以用 map<string,string> 查询时可以按照 aaa[bbb], aaa 是map字段名，bbb是其中的参数名，就可以取到这个参数的值了当参数名bbb是string时，需要加双引号。例： aaa： {"url":"http://Detail?activityId=7"} aaa 阅读全文

posted @ 2018-04-18 17:07 Suckseedeva 阅读(14278) 评论(0) 推荐(0)

hive 表锁和解锁

摘要：场景：在执行insert into或insert overwrite任务时，中途手动将程序停掉，会出现卡死情况（无法提交MapReduce），只能执行查询操作，而drop insert操作均不可操作，无论执行多久，都会保持卡死状态临时解决办法是……把表名换一个…… 根本原因是：hive表被锁或者阅读全文

posted @ 2018-04-12 11:28 Suckseedeva 阅读(15159) 评论(0) 推荐(0)

hive执行报错：Both left and right aliases encountered in JOIN 's1'

摘要：原因：两个表join的时候，不支持两个表的字段非相等操作。可以把不相等条件拿到 where语句中。例如： right JOIN test.dim_month_date p2 on p1.month=p2.y_month and p1.day<=p2.day 可以改写成 right JOIN 阅读全文

posted @ 2017-11-08 16:08 Suckseedeva 阅读(19714) 评论(0) 推荐(0)

Hive Ntile分析函数学习

摘要：NTILE(n) 用于将分组数据按照顺序切分成n片，返回当前记录所在的切片值 NTILE不支持ROWS BETWEEN，比如 NTILE(2) OVER(PARTITION BY cookieid ORDER BY createtime ROWS BETWEEN 3 PRECEDING AND CU 阅读全文

posted @ 2017-09-19 15:34 Suckseedeva 阅读(10323) 评论(3) 推荐(0)

oozie 工作流调试及报错

摘要：1. oozie 调用sql文件的workflow 错误汇总： 1）hive2server密码错误。（有时设置可以无密码，有时需要登陆密码，有时是单独的hive2server密码） Connecting to jdbc:hive2://spark-02:10000/defaultError: Cou 阅读全文

posted @ 2017-09-19 14:57 Suckseedeva 阅读(3261) 评论(0) 推荐(0)

hadoop/hdfs/yarn 详细命令搬运

摘要：转载自文章 http://www.cnblogs.com/davidwang456/p/5074108.html 安装完hadoop后，在hadoop的bin目录下有一系列命令：知道这些命令有助于理解hadoop的概念，命令如下： 1. hadoop 命令帮助 1.1 hadoop fs命令帮助阅读全文

posted @ 2017-09-19 14:08 Suckseedeva 阅读(1470) 评论(0) 推荐(0)

Impala SQL 使用小记

摘要：1. impala端创建的表，DROP。 hive会自动同步到。但是通过hive DROP时，数据还会在，只是表的元数据没有了。所以完全DROP表，需要impala端的DROP 2. impala 不支持多个count(distinct ) 和udf 3. 在后台服务器连接impala-she 阅读全文

posted @ 2017-09-11 18:26 Suckseedeva 阅读(1898) 评论(0) 推荐(0)

hive压缩

摘要：1. 常用 rcfile + gzip parquet + snappy 2. 压缩比，参考如果是数据源的话，采用 RCFile+bz 或 RCFile+gz 的方式，这样可以很大程度上节省磁盘空间；而在计算的过程中，为了不影响执行的速度，可以浪费一点磁盘空间，建议采用 RCFile+snapp 阅读全文

posted @ 2017-09-07 13:59 Suckseedeva 阅读(558) 评论(0) 推荐(0)

Hive 优化汇总

摘要：参考： http://www.cnblogs.com/yshb/p/3147710.html http://www.cnblogs.com/sandbank/p/6408762.html 一 join时注意点： 1. 小表放前面 Hive假定查询中最后的一个表是大表。它会将其它表缓存起来，然后扫描最阅读全文

posted @ 2017-07-19 09:56 Suckseedeva 阅读(1523) 评论(0) 推荐(0)

yarn 日志查看

摘要：1. yarn 日志列表 2. impala-shell 3. Ozzie 调用shell which impala-shell 获得impala-shell的路径然后写一个shell文件：阅读全文

posted @ 2017-05-09 16:00 Suckseedeva 阅读(5049) 评论(0) 推荐(0)

Hive 组内计无重复数，追加每条记录后面

摘要：今天无意中碰到一个很简单的计算逻辑，但是用hive想了一大会才实现。示例表数据：需求逻辑：给每条记录追加一个字段，用于统计按照p1和p2字段分组后，每个组中的num的数目（去重后的count）。示例结果： Mysql 超级简单的一句： Hive里会报distinct有问题，去掉的话，明显与阅读全文

posted @ 2017-04-01 14:41 Suckseedeva 阅读(1603) 评论(0) 推荐(0)

impala 和 kudu 小记

摘要：1. impala（官网）实时交互SQL大数据查询工具它提供SQL语义，能查询存储在Hadoop的HDFS和HBase中的PB级大数据。 Impala的最大特点也是最大卖点就是它的快速。 Impala完全抛弃了Hive+MapReduce这个不太适合做SQL查询的缓慢范式通过使用与商用并行关系阅读全文

posted @ 2017-03-23 11:24 Suckseedeva 阅读(11838) 评论(0) 推荐(1)

见贤思小齐，知足常乐呵

公告

随笔分类 - Hive & Hadoop & Hue