见贤思小齐,知足常乐呵

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

随笔分类 -  Hive & Hadoop & Hue

摘要:order by rand() limit 100 1. 可用于普通随机筛选 2. 也可用于row_number() 等函数的排序里作为随机排序。 阅读全文
posted @ 2019-01-28 20:13 Suckseedeva 阅读(4867) 评论(0) 推荐(1)

摘要:str_to_map(字符串参数, 分隔符1, 分隔符2) 使用两个分隔符将文本拆分为键值对。 分隔符1将文本分成K-V对,分隔符2分割每个K-V对。对于分隔符1默认分隔符是 ',',对于分隔符2默认分隔符是 '='。 例子: 1. 创建map字段 2. concat + str_to_map函数 阅读全文
posted @ 2018-12-24 14:24 Suckseedeva 阅读(26977) 评论(0) 推荐(0)

摘要:1. Sqoop import 任务里把原来NULL的转化成字符串‘null’了。 解决方法: 先: alter table ${table_name} SET SERDEPROPERTIES('serialization.null.format' = '\\N'); 再: sqoop代码最后面加上 阅读全文
posted @ 2018-12-21 15:18 Suckseedeva 阅读(545) 评论(0) 推荐(0)

摘要:获取当前日期 SELECT CURRENT_DATE, CURRENT_TIMESTAMP, from_unixtime(unix_timestamp()); 上个月1号 concat(substr(date_sub('${bizdate}',1),1,7),'-01') 上个月最后一天 date_ 阅读全文
posted @ 2018-12-20 16:13 Suckseedeva 阅读(2381) 评论(0) 推荐(0)

摘要:1. 梳理出你要的列和行维度 列维度: 每一周 行维度: 年级 + 学科 + 班型 2. 对数据按周增序进行聚合 (即根据列维度) ,生成list concat_ws 和 collect_list (collect_set 会去重后再聚合) 顺序随机 sort_array 只能增序,要倒序排的话在子 阅读全文
posted @ 2018-12-18 16:42 Suckseedeva 阅读(1105) 评论(0) 推荐(0)

摘要:1. 查看各库的存储大小 hdfs dfs -du -h /user/hive/warehouse 2. 删除HDFS 文件 hdfs dfs -rmr 绝对路径名 例如:hdfs dfs -rmr /user/hive/warehouse/xhx_dw.db/dw_homework_questio 阅读全文
posted @ 2018-07-19 11:55 Suckseedeva 阅读(942) 评论(0) 推荐(0)

摘要:1 MySQL 到 Hive 表的sqoop任务把 原本的NULL 变成字符串 ‘null’ 了 alter table ${table_name} SET SERDEPROPERTIES('serialization.null.format' = '\\N'); -- 修改表的NULL值属性 sq 阅读全文
posted @ 2018-07-10 10:32 Suckseedeva 阅读(4241) 评论(0) 推荐(0)

摘要:1. 集群任务队列: 一般有 root.default, root.online, root.offline, root.spark-thiftserver Hue提交的任务一般默认在 default队列 如果是紧急任务,可以提交到其他队列,会快很多 方法: 指定队列 set mapreduce.j 阅读全文
posted @ 2018-07-10 10:27 Suckseedeva 阅读(477) 评论(0) 推荐(0)

摘要:建表可以用 map<string,string> 查询时可以按照 aaa[bbb], aaa 是map字段名,bbb是其中的参数名,就可以取到这个参数的值了 当参数名bbb是string时,需要加双引号。例: aaa: {"url":"http://Detail?activityId=7"} aaa 阅读全文
posted @ 2018-04-18 17:07 Suckseedeva 阅读(14276) 评论(0) 推荐(0)

摘要:场景: 在执行insert into或insert overwrite任务时,中途手动将程序停掉,会出现卡死情况(无法提交MapReduce),只能执行查询操作,而drop insert操作均不可操作,无论执行多久,都会保持卡死状态 临时解决办法是……把表名换一个…… 根本原因是:hive表被锁或者 阅读全文
posted @ 2018-04-12 11:28 Suckseedeva 阅读(15155) 评论(0) 推荐(0)

摘要:原因:两个表join的时候,不支持两个表的字段 非相等 操作。 可以把不相等条件拿到 where语句中。 例如: right JOIN test.dim_month_date p2 on p1.month=p2.y_month and p1.day<=p2.day 可以改写成 right JOIN 阅读全文
posted @ 2017-11-08 16:08 Suckseedeva 阅读(19707) 评论(0) 推荐(0)

摘要:NTILE(n) 用于将分组数据按照顺序切分成n片,返回当前记录所在的切片值 NTILE不支持ROWS BETWEEN,比如 NTILE(2) OVER(PARTITION BY cookieid ORDER BY createtime ROWS BETWEEN 3 PRECEDING AND CU 阅读全文
posted @ 2017-09-19 15:34 Suckseedeva 阅读(10312) 评论(3) 推荐(0)

摘要:1. oozie 调用sql文件的workflow 错误汇总: 1)hive2server密码错误。(有时设置可以无密码,有时需要登陆密码,有时是单独的hive2server密码) Connecting to jdbc:hive2://spark-02:10000/defaultError: Cou 阅读全文
posted @ 2017-09-19 14:57 Suckseedeva 阅读(3257) 评论(0) 推荐(0)

摘要:转载自文章 http://www.cnblogs.com/davidwang456/p/5074108.html 安装完hadoop后,在hadoop的bin目录下有一系列命令: 知道这些命令有助于理解hadoop的概念,命令如下: 1. hadoop 命令帮助 1.1 hadoop fs命令帮助 阅读全文
posted @ 2017-09-19 14:08 Suckseedeva 阅读(1470) 评论(0) 推荐(0)

摘要:1. impala端创建的表,DROP。 hive会自动同步到。 但是通过hive DROP时,数据还会在,只是表的元数据没有了。 所以完全DROP表,需要impala端的DROP 2. impala 不支持 多个count(distinct ) 和udf 3. 在后台服务器连接impala-she 阅读全文
posted @ 2017-09-11 18:26 Suckseedeva 阅读(1898) 评论(0) 推荐(0)

摘要:1. 常用 rcfile + gzip parquet + snappy 2. 压缩比,参考 如果是数据源的话,采用 RCFile+bz 或 RCFile+gz 的方式,这样可以很大程度上节省磁盘空间; 而在计算的过程中,为了不影响执行的速度,可以浪费一点磁盘空间,建议采用 RCFile+snapp 阅读全文
posted @ 2017-09-07 13:59 Suckseedeva 阅读(557) 评论(0) 推荐(0)

摘要:参考: http://www.cnblogs.com/yshb/p/3147710.html http://www.cnblogs.com/sandbank/p/6408762.html 一 join时注意点: 1. 小表放前面 Hive假定查询中最后的一个表是大表。它会将其它表缓存起来,然后扫描最 阅读全文
posted @ 2017-07-19 09:56 Suckseedeva 阅读(1522) 评论(0) 推荐(0)

摘要:1. yarn 日志列表 2. impala-shell 3. Ozzie 调用shell which impala-shell 获得impala-shell的路径 然后写一个shell文件: 阅读全文
posted @ 2017-05-09 16:00 Suckseedeva 阅读(5048) 评论(0) 推荐(0)

摘要:今天无意中碰到一个很简单的计算逻辑,但是用hive想了一大会才实现。 示例表数据: 需求逻辑: 给每条记录追加一个字段,用于统计按照p1和p2字段分组后,每个组中的num的数目(去重后的count)。 示例结果: Mysql 超级简单的一句: Hive里 会报distinct有问题,去掉的话,明显与 阅读全文
posted @ 2017-04-01 14:41 Suckseedeva 阅读(1602) 评论(0) 推荐(0)

摘要:1. impala(官网) 实时交互SQL大数据查询工具 它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。 Impala的最大特点也是最大卖点就是它的快速。 Impala完全抛弃了Hive+MapReduce这个不太适合做SQL查询的缓慢范式 通过使用与商用并行关系 阅读全文
posted @ 2017-03-23 11:24 Suckseedeva 阅读(11836) 评论(0) 推荐(1)