随笔分类 - HIVE
摘要:一、创建拉链表 创建表 CREATE TABLE `ods_login`( | | `uid` string, | | `name` string, | | `phone` string, | | `date` string) | | PARTITIONED BY ( | | `dt` string
阅读全文
摘要:数据质量是保证数据应用的基础,它的评估标准主要包括四个方面:完整性、一致性、准确性、及时性。评估数据是否达到预期设定的质量要求,就可以通过这四个方面来进行判断。
阅读全文
摘要:一、连续登陆问题 -- user_id, date, flag-- data: 1 2019-07-11 1 1 2019-07-12 1 1 2019-07-13 1 1 2019-07-14 1 1 2019-07-15 1 1 2019-07-16 1 1 2019-07-17 1 1 201
阅读全文
摘要:依赖 <!-- 相关依赖 --> <dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-exec</artifactId> <version>2.1.1-cdh6.2.1</version> </dependency> <d
阅读全文
摘要:一、Hive调优策略 架构调优1、执行引擎:Hive默认使用的是MR,可以换为Tez,Tez将多个mapReduce任务合并成一个较大的DAG任务,减少mapreduce迭代过程中文件存储,其他的引擎可以是spark,flink等;2、分区分桶表:对于一张较大的表,将其设计成分区表可以提高查询性能,
阅读全文
摘要:DDL -- 创建数据库,默认数据库地址是/user/hive/warehouse CREATE DATABASE IF NOT EXISTS myhive; -- 指定数据库的地址 CREATE DATABASE set_location_hive LOCATION '/custom' -- 删除
阅读全文
摘要:架构 CLI用户接口:接受SQL,并返回运行结果 Thrift Server:通过JDBC或者ODBC访问hive MetaStore:hive的元数据存储在关系型数据库中,元数据包括:数据库名,表名及类型,字段名称及数据类型,数据存储位置等 驱动程序: 解析器:使用第三方工具(antlr)将HSQ
阅读全文
摘要:特殊数据类型 ARRAY,MAP,STRUCT CREATE TABLE employee( name string, salary double, subor array<string>, dedu map<string, double>, address struct<street:string
阅读全文
摘要:前提 需要安装hadoop和MySQL数据库 安装步骤 解压初始化环境变量 tar -zxvf apache-hive-2.3.4-bin.tar.gz -C /app/export HIVE_HOME=/app/apache-hive-2.3.4-binexport PATH=$PATH:$HIV
阅读全文
摘要:Hive 1 CREATE TABLE t_docs (line string); 2 3 LOAD DATA LOCAL INPATH '/opt/workspace/docs.dat' INTO TABLE t_docs; 4 5 WITH tmp AS ( 6 SELECT explode(s
阅读全文

浙公网安备 33010602011771号