上一页 1 ··· 23 24 25 26 27 28 29 30 31 ··· 39 下一页
摘要: 定位: HIVE:长时间的批处理查询分析 impala:实时交互式SQL查询 impala优缺点优点: 1. 生成执行计划树,不用多次启动job造成多余开销,并且减少中间结果数据写入磁盘,执行速度快 2. 不占用yarn的资源 3. 缺点: 1. 不支持Date类型 2. 与HIVE数据不同步,需要 阅读全文
posted @ 2018-12-10 09:26 chenzechao 阅读(1162) 评论(0) 推荐(0)
摘要: return code 2 为SQL报错。 return code 1 一般为权限问题。 具体要看源码。 阅读全文
posted @ 2018-12-06 14:40 chenzechao 阅读(561) 评论(0) 推荐(0)
摘要: -- 重点,目标表无重复数据 从结果可以看出,在无重复数据的情况下,parquet的压缩无用武之地,占用空间比textfile还大,ORC是压缩最强的文件模式。 阅读全文
posted @ 2018-12-05 18:21 chenzechao 阅读(904) 评论(0) 推荐(0)
摘要: Map意为映射,就是将数据映射为其他形式,如转换(加减乘除改格式),拓展(String的split一变多),以及过滤等。输出为KeyValue格式Reduce意为收缩 阅读全文
posted @ 2018-11-27 15:23 chenzechao 阅读(121) 评论(0) 推荐(0)
摘要: sqoop数据校验 阅读全文
posted @ 2018-11-27 14:03 chenzechao 阅读(337) 评论(0) 推荐(0)
摘要: oracle service name connect dest_ip=100.100.100.100 dest_port=1634 dest_dbname=server_name connect="jdbc:oracle:thin:@//${dest_ip}:${dest_port}/${dest_dbname}" 阅读全文
posted @ 2018-11-27 14:02 chenzechao 阅读(124) 评论(0) 推荐(0)
摘要: 1.将报错路径中VanDyke文件夹内的东西删除掉2.运行regedit,在注册表中将HKEY_LOCAL_MACHINA中SOFTWARE里的VanDyke删除3.注册表中打开HKEY_CURRENT_USER,其SOFTWARE里也有VanDyke,将其删除 阅读全文
posted @ 2018-11-22 16:46 chenzechao 阅读(611) 评论(0) 推荐(0)
摘要: CENTOS 7 install mariadb 10.3 cat >/etc/yum.repos.d/MariaDB.repo << 'EOF' [mariadb] name = MariaDB baseurl = http://yum.mariadb.org/10.3/centos7-amd64/ gpgkey=https://yum.mariadb.org/RPM-GPG-KEY-Ma... 阅读全文
posted @ 2018-11-08 10:03 chenzechao 阅读(122) 评论(0) 推荐(0)
摘要: -- hive中解析json数组 select t1.status ,substr(ss.col,1,10) as col ,t3.evcId ,t3.evcLicense ,t3.evcAddress ,t3.modelName from ( select get_json_object(json 阅读全文
posted @ 2018-11-01 09:49 chenzechao 阅读(7808) 评论(0) 推荐(1)
摘要: -- LEAD(col,n,DEFAULT) 用于统计窗口内往下第n行值 -- 第一个参数为列名,第二个参数为往下第n行(可选,默认为1),第三个参数为默认值(当往下第n行为NULL时候,取默认值,如不指定,则为NULL) -- LAG(col,n,DEFAULT) 用于统计窗口内往上第n行值 -- 第一个参数为列名,第二个参数为往上第n行(可选,默认为1),第三个参数为默认值(当往上第n行... 阅读全文
posted @ 2018-10-24 14:29 chenzechao 阅读(661) 评论(0) 推荐(0)
上一页 1 ··· 23 24 25 26 27 28 29 30 31 ··· 39 下一页