摘要:
数据准备 CREATE EXTERNAL TABLE lxw1234 ( cookieid string, createtime string, --day pv INT ) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' stored as textfi 阅读全文
posted @ 2019-12-14 15:05
玩转大数据
阅读(669)
评论(0)
推荐(0)
摘要:
1-请详细描述将一个有结构的文本文件student.txt导入到一个hive表中的步骤,及其关键字 假设student.txt 有以下几列:id,name,gender三列 1-创建数据库 create database student_info; 2-创建hive表 student create 阅读全文
posted @ 2019-12-14 15:04
玩转大数据
阅读(1360)
评论(0)
推荐(0)
摘要:
Hive动态分区参数配置 往hive分区表中插入数据时,如果需要创建的分区很多,比如以表中某个字段进行分区存储,则需要复制粘贴修改很多sql去执行,效率低。因为hive是批处理系统,所以hive提供了一个动态分区功能,其可以基于查询参数的位置去推断分区的名称,从而建立分区。 使用动态分区表必须配置的 阅读全文
posted @ 2019-12-14 15:03
玩转大数据
阅读(5137)
评论(0)
推荐(0)
摘要:
Hive向程序中传递变量的方式 暴力替换 字符串替换 正则替换 模板引擎 系统环境变量 shell环境变量:${env:varname} system系统变量:${system:varname} hive 命令参数 hivevar方式:${hivevar:varname} hiveconf方式:${ 阅读全文
posted @ 2019-12-14 15:01
玩转大数据
阅读(3463)
评论(0)
推荐(0)
摘要:
Hive的优化策略大致分为:配置优化(hive-site.xml和hive-cli执行前配置)、表优化、hive数据倾斜解决方案。 回答的时候需要,需要准确的说出具体的配置参数,准确的说出具体的配置参数,这是一个深刻的教训。 配置优化 1-Fetch抓取配置 Fetch抓取是指,Hive中对某些情况 阅读全文
posted @ 2019-12-14 14:59
玩转大数据
阅读(696)
评论(0)
推荐(0)
摘要:
数据倾斜产生的原因 数据倾斜的原因很大部分是join倾斜和聚合倾斜两大类 Hive倾斜之group by聚合倾斜 原因: 分组的维度过少,每个维度的值过多,导致处理某值的reduce耗时很久; 对一些类型统计的时候某种类型的数据量特别多,其他的数据类型特别少。当按照类型进行group by的时候,会 阅读全文
posted @ 2019-12-14 14:58
玩转大数据
阅读(8259)
评论(0)
推荐(1)
摘要:
Hive设置配置参数的方法 Hive提供三种可以改变环境变量的方法,分别是: (1)、修改${HIVE_HOME}/conf/hive-site.xml配置文件; (2)、命令行参数; (3)、在已经进入cli时进行参数声明。 方法一:hive-site.xml配置参数 在Hive中,所有的默认配置 阅读全文
posted @ 2019-12-14 14:57
玩转大数据
阅读(5390)
评论(0)
推荐(0)
摘要:
UDF User-Defined-Function 自定义函数 、一进一出; 背景 系统内置函数无法解决实际的业务问题,需要开发者自己编写函数实现自身的业务实现诉求。 应用场景非常多,面临的业务不同导致个性化实现很多,故udf很需要。 意义 函数扩展得到解决,极大丰富了可定制化的业务需求。 IO要求 阅读全文
posted @ 2019-12-14 14:56
玩转大数据
阅读(9120)
评论(0)
推荐(0)
摘要:
聚合函数 函数处理的数据粒度为多条记录。 sum()—求和 count()—求数据量 avg()—求平均直 distinct—求不同值数 min—求最小值 max—求最人值 分析函数 Analytics functions RANK ROW_NUMBER DENSE_RANK CUME_DIST P 阅读全文
posted @ 2019-12-14 14:55
玩转大数据
阅读(1177)
评论(0)
推荐(0)
摘要:
1-创建表 -- 内部表 create table aa(col1 string,col2 int) partitioned by(statdate int) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'; -- 外部表 create external 阅读全文
posted @ 2019-12-14 14:54
玩转大数据
阅读(722)
评论(0)
推荐(0)
浙公网安备 33010602011771号