随笔分类 - 大数据-Hive
摘要:1.压缩 (1)Hive支持的压缩编码 压缩格式 工具 算法 文件扩展名 是否可切分 对应的编码/解码器 DEFLATE 无 DEFLATE .deflate 否 org.apache.hadoop.io.compress.DefaultCodec Gzip gzip DEFLATE .gz 否 o
阅读全文
摘要:1.查询操作语法 SELECT [ALL | DISTINCT] select_expr, select_expr, ... FROM table_reference [WHERE where_condition] [GROUP BY col_list] [ORDER BY col_list] [C
阅读全文
摘要:1.Hive最基本操作 (1)启动hive bin/hive (2)查看数据库 hive> show databases; (3)打开默认数据库 hive> use default; (4)显示default数据库中的表 hive> show tables; (5)创建一张表 hive> creat
阅读全文
摘要:1.基本数据类型 Hive基本数据类型 Java数据类型 长度 例子 TINYINT byte 1byte有符号整数 20 SMALINT short 2byte有符号整数 20 INT int 4byte有符号整数 20 BIGINT long 8byte有符号整数 20 BOOLEAN bool
阅读全文
摘要:一、安装Hive3.1.2 备注:在安装Hive3.1.2之前,请首先安装Hadoop3.1.3。 1. 下载并解压Hive安装包 tar -zxvf ./apache-hive-3.1.2-bin.tar.gz -C /usr/local cd /usr/local/ mv apache-hive
阅读全文
摘要:一、Hive基本概念 1.什么是Hive? hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载。可以存储、查询和分析存储在Hadoop中的大规模数据。 hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务
阅读全文
摘要:数据导入 ● 本地文件导入 -- 本地文件导入(local) LOAD DATA local INPATH '/home/hadoop/sourceA.txt' INTO TABLE testA PARTITION(create_time='2015-07-08'); ● HDFS文件导入 -- H
阅读全文
摘要:Hive概述 架构于Hadoop之上,可以将结构化的HDFS文件映射成一张表,并提供了类似于SQL语法的HQL查询功能。 核心本质:将HQL语句转换成MapReduce任务。 Hive的优缺点 优点 避免了开发人员去实现Map和Reduce的接口,大大降低了学习成本。 HQL语法类似于SQL语法,简
阅读全文
摘要:相同点 insert into 和 insert overwrite 都是往表中插入数据的。 不同点 区别1: insert into :其实是将数据追加到表的末尾,注意:不是覆盖,是追加。 insert overwrite : 其实是将重写表(或分区)中的内容,即将原来的hive表(或分区)中的数
阅读全文
摘要:问题背景 设想你对用户在不同品类上的行为打分聚合后得到这样一个表 user_cate_score uid cate score 1 1 0.3 2 2 0.5 8 3 0.9 现在,你想将每个品类的TOP 100W 用户取出来,这种场景在推荐、营销中很常见。 基本方法 这个很容易通过窗函数写出如下解
阅读全文