摘要:order by rand() limit 100 1. 可用于普通随机筛选 2. 也可用于row_number() 等函数的排序里作为随机排序。
阅读全文
随笔分类 - Hive & Hadoop & Hue
摘要:order by rand() limit 100 1. 可用于普通随机筛选 2. 也可用于row_number() 等函数的排序里作为随机排序。
阅读全文
摘要:str_to_map(字符串参数, 分隔符1, 分隔符2) 使用两个分隔符将文本拆分为键值对。 分隔符1将文本分成K-V对,分隔符2分割每个K-V对。对于分隔符1默认分隔符是 ',',对于分隔符2默认分隔符是 '='。 例子: 1. 创建map字段 2. concat + str_to_map函数
阅读全文
摘要:1. Sqoop import 任务里把原来NULL的转化成字符串‘null’了。 解决方法: 先: alter table ${table_name} SET SERDEPROPERTIES('serialization.null.format' = '\\N'); 再: sqoop代码最后面加上
阅读全文
摘要:获取当前日期 SELECT CURRENT_DATE, CURRENT_TIMESTAMP, from_unixtime(unix_timestamp()); 上个月1号 concat(substr(date_sub('${bizdate}',1),1,7),'-01') 上个月最后一天 date_
阅读全文
摘要:1. 梳理出你要的列和行维度 列维度: 每一周 行维度: 年级 + 学科 + 班型 2. 对数据按周增序进行聚合 (即根据列维度) ,生成list concat_ws 和 collect_list (collect_set 会去重后再聚合) 顺序随机 sort_array 只能增序,要倒序排的话在子
阅读全文
摘要:1. 查看各库的存储大小 hdfs dfs -du -h /user/hive/warehouse 2. 删除HDFS 文件 hdfs dfs -rmr 绝对路径名 例如:hdfs dfs -rmr /user/hive/warehouse/xhx_dw.db/dw_homework_questio
阅读全文
摘要:1 MySQL 到 Hive 表的sqoop任务把 原本的NULL 变成字符串 ‘null’ 了 alter table ${table_name} SET SERDEPROPERTIES('serialization.null.format' = '\\N'); -- 修改表的NULL值属性 sq
阅读全文
摘要:1. 集群任务队列: 一般有 root.default, root.online, root.offline, root.spark-thiftserver Hue提交的任务一般默认在 default队列 如果是紧急任务,可以提交到其他队列,会快很多 方法: 指定队列 set mapreduce.j
阅读全文
摘要:建表可以用 map<string,string> 查询时可以按照 aaa[bbb], aaa 是map字段名,bbb是其中的参数名,就可以取到这个参数的值了 当参数名bbb是string时,需要加双引号。例: aaa: {"url":"http://Detail?activityId=7"} aaa
阅读全文
摘要:场景: 在执行insert into或insert overwrite任务时,中途手动将程序停掉,会出现卡死情况(无法提交MapReduce),只能执行查询操作,而drop insert操作均不可操作,无论执行多久,都会保持卡死状态 临时解决办法是……把表名换一个…… 根本原因是:hive表被锁或者
阅读全文
摘要:原因:两个表join的时候,不支持两个表的字段 非相等 操作。 可以把不相等条件拿到 where语句中。 例如: right JOIN test.dim_month_date p2 on p1.month=p2.y_month and p1.day<=p2.day 可以改写成 right JOIN
阅读全文
摘要:NTILE(n) 用于将分组数据按照顺序切分成n片,返回当前记录所在的切片值 NTILE不支持ROWS BETWEEN,比如 NTILE(2) OVER(PARTITION BY cookieid ORDER BY createtime ROWS BETWEEN 3 PRECEDING AND CU
阅读全文
摘要:1. oozie 调用sql文件的workflow 错误汇总: 1)hive2server密码错误。(有时设置可以无密码,有时需要登陆密码,有时是单独的hive2server密码) Connecting to jdbc:hive2://spark-02:10000/defaultError: Cou
阅读全文
摘要:转载自文章 http://www.cnblogs.com/davidwang456/p/5074108.html 安装完hadoop后,在hadoop的bin目录下有一系列命令: 知道这些命令有助于理解hadoop的概念,命令如下: 1. hadoop 命令帮助 1.1 hadoop fs命令帮助
阅读全文
摘要:1. impala端创建的表,DROP。 hive会自动同步到。 但是通过hive DROP时,数据还会在,只是表的元数据没有了。 所以完全DROP表,需要impala端的DROP 2. impala 不支持 多个count(distinct ) 和udf 3. 在后台服务器连接impala-she
阅读全文
摘要:1. 常用 rcfile + gzip parquet + snappy 2. 压缩比,参考 如果是数据源的话,采用 RCFile+bz 或 RCFile+gz 的方式,这样可以很大程度上节省磁盘空间; 而在计算的过程中,为了不影响执行的速度,可以浪费一点磁盘空间,建议采用 RCFile+snapp
阅读全文
摘要:参考: http://www.cnblogs.com/yshb/p/3147710.html http://www.cnblogs.com/sandbank/p/6408762.html 一 join时注意点: 1. 小表放前面 Hive假定查询中最后的一个表是大表。它会将其它表缓存起来,然后扫描最
阅读全文
摘要:1. yarn 日志列表 2. impala-shell 3. Ozzie 调用shell which impala-shell 获得impala-shell的路径 然后写一个shell文件:
阅读全文
摘要:今天无意中碰到一个很简单的计算逻辑,但是用hive想了一大会才实现。 示例表数据: 需求逻辑: 给每条记录追加一个字段,用于统计按照p1和p2字段分组后,每个组中的num的数目(去重后的count)。 示例结果: Mysql 超级简单的一句: Hive里 会报distinct有问题,去掉的话,明显与
阅读全文
摘要:1. impala(官网) 实时交互SQL大数据查询工具 它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。 Impala的最大特点也是最大卖点就是它的快速。 Impala完全抛弃了Hive+MapReduce这个不太适合做SQL查询的缓慢范式 通过使用与商用并行关系
阅读全文
|