随笔分类 -  Hive

Hive
摘要:Hive系列文章 Hive表的基本操作 Hive中的集合数据类型 Hive动态分区详解 hive中orc格式表的数据导入 Java通过jdbc连接hive 通过HiveServer2访问Hive SpringBoot连接Hive实现自助取数 hive关联hbase表 Hive udf 使用方法 Hi 阅读全文
posted @ 2022-02-17 22:06 大数据技术派 阅读(933) 评论(0) 推荐(0)
摘要:关注公众号:大数据技术派,回复: 资料,领取1024G资料。 时间滑动计算 今天遇到一个需求大致是这样的,我们有一个业务涉及到用户打卡,用户可以一天多次打卡,我们希望计算出7天内打卡8次以上,且打卡时间分布在4天以上的时间,当然这只是个例子,我们具体解释一下这个需求 用户一天可以打卡多次,所以要求打 阅读全文
posted @ 2021-12-23 21:58 大数据技术派 阅读(1126) 评论(0) 推荐(2)
摘要:关注公众号:大数据技术派,回复“资料”,领取1000G资料。 其实这篇文章的起源是,我司有数据清洗时将ip转化为类似中国-湖北-武汉地区这种需求。由于ip服务商提供的Demo,只能在本地读取,我需要将ip库上传到HDFS分布式存储,每个计算节点再从HDFS下载到本地。 那么到底能不能直接从HDFS读 阅读全文
posted @ 2021-12-16 12:58 大数据技术派 阅读(721) 评论(0) 推荐(0)
摘要:Json 格式的数据处理 Json 数据格式是我们比较常用的的一种数据格式,例如埋点数据、业务端的数据、前后端调用都采用的是这种数据格式,所以我们很有必要学习一下这种数据格式的处理方法 准备数据 cat json.data {"movie":"1193","rate":"5","timeStamp" 阅读全文
posted @ 2021-11-30 22:28 大数据技术派 阅读(979) 评论(0) 推荐(0)
摘要:听到谓词下推这个词,是不是觉得很高大上,找点资料看了半天才能搞懂概念和思想,借这个机会好好学习一下吧。 引用范欣欣大佬的博客中写道,以前经常满大街听到谓词下推,然而对谓词下推却总感觉懵懵懂懂,并不明白的很真切。这里拿出来和大家交流交流。个人认为谓词下推有两个层面的理解: 其一是逻辑执行计划优化层面的 阅读全文
posted @ 2021-11-09 22:22 大数据技术派 阅读(628) 评论(3) 推荐(0)
摘要:关注公众号:大数据技术派,回复: 资料,领取1024G资料。 强哥说他发现了财富密码,最近搞了一套股票算法,其中有一点涉及到股票连续涨停天数的计算方法,我们都知道股票周末是不开市的,这里有个断层,需要一点技巧。我问是不是时间序列,他说我瞎扯,我也知道自己是瞎扯。问他方法,他竟然不告诉我,这么多年的兄 阅读全文
posted @ 2021-11-04 08:40 大数据技术派 阅读(1754) 评论(4) 推荐(2)
摘要:1、Hive表关联查询,如何解决数据倾斜的问题?(☆☆☆☆☆) 1)倾斜原因:map输出数据按key Hash的分配到reduce中,由于key分布不均匀、业务数据本身的特、建表时考虑不周、等原因造成的reduce 上的数据量差异过大。 (1)key分布不均匀; (2)业务数据本身的特性; (3)建 阅读全文
posted @ 2021-10-23 11:04 大数据技术派 阅读(871) 评论(0) 推荐(0)
摘要:关注公众号:大数据技术派,回复: 资料,领取1024G资料。 最近发现离线任务对一个增量Hive表的查询越来越慢,这引起了我的注意,我在cmd窗口手动执行count操作查询发现,速度确实很慢,才不到五千万的数据,居然需要300s,这显然是有问题的,我推测可能是有小文件。 我去hdfs目录查看了一下该 阅读全文
posted @ 2021-09-20 14:02 大数据技术派 阅读(4362) 评论(0) 推荐(0)
摘要:关注公众号:大数据技术派,回复: 资料,领取1024G资料。 行存储与列存储 当今的数据处理大致可分为两大类,联机事务处理 OLTP(on-line transaction processing)联机分析处理 OLAP(On-Line Analytical Processing)=,OLTP 是传统 阅读全文
posted @ 2021-09-19 19:54 大数据技术派 阅读(2438) 评论(0) 推荐(0)
摘要:Hive系列文章 Hive表的基本操作 Hive中的集合数据类型 Hive动态分区详解 hive中orc格式表的数据导入 Java通过jdbc连接hive 通过HiveServer2访问Hive SpringBoot连接Hive实现自助取数 hive关联hbase表 Hive udf 使用方法 Hi 阅读全文
posted @ 2021-06-09 23:32 大数据技术派 阅读(1056) 评论(0) 推荐(1)
摘要:经常有同学问我,基于Hadoop生态圈的大数据组件有很多,怎么学的过来呢,毕竟精力有限,我们需要有侧重点,我觉得下面这几个组件至关重要,是基础组件,大部分人都需要会的,其它组件可以用的时候再去查查资料学习。 hadoop Hbase Hive Spark Flink Kafka Hadoop 是大数 阅读全文
posted @ 2021-05-25 21:55 大数据技术派 阅读(1152) 评论(1) 推荐(2)
摘要:HBase 虽然可以存储数亿或数十亿行数据,但是对于数据分析来说,不太友好,只提供了简单的基于 Key 值的快速查询能力,没法进行大量的条件查询。现有hbase的查询工具有很多如:Hive,Tez,Impala,Shark/Spark,Phoenix等。今天主要说Hive,Hive方便地提供了Hiv 阅读全文
posted @ 2021-01-20 22:45 大数据技术派 阅读(632) 评论(0) 推荐(0)
摘要:1. 创建表 create table语句遵从sql语法习惯,只不过Hive的语法更灵活。例如,可以定义表的数据文件存储位置,使用的存储格式等。 create table if not exists test.user1( name string comment 'name', salary flo 阅读全文
posted @ 2021-01-10 19:57 大数据技术派 阅读(1154) 评论(0) 推荐(0)
摘要:关注公众号:大数据技术派,回复: 资料,领取1024G资料。 Hive 中的四种排序 排序操作是一个比较常见的操作,尤其是在数据分析的时候,我们往往需要对数据进行排序,hive 中和排序相关的有四个关键字,今天我们就看一下,它们都是什么作用。 数据准备 下面我们有一份温度数据,tab 分割 2008 阅读全文
posted @ 2021-01-07 09:15 大数据技术派 阅读(6993) 评论(0) 推荐(1)
摘要:本文大纲 UDF 简介 Hive作为一个sql查询引擎,自带了一些基本的函数,比如count(计数),sum(求和),有时候这些基本函数满足不了我们的需求,这时候就要写hive hdf(user defined funation),又叫用户自定义函数。编写Hive UDF的步骤: 添加相关依赖,创建 阅读全文
posted @ 2020-12-31 09:14 大数据技术派 阅读(1127) 评论(0) 推荐(0)
摘要:Hive系列文章 Hive表的基本操作 Hive中的集合数据类型 Hive动态分区详解 hive中orc格式表的数据导入 Java通过jdbc连接hive 通过HiveServer2访问Hive SpringBoot连接Hive实现自助取数 hive关联hbase表 Hive udf 使用方法 Hi 阅读全文
posted @ 2020-12-23 22:35 大数据技术派 阅读(11099) 评论(0) 推荐(0)
摘要:关注公众号:大数据技术派,回复: 资料,领取1024G资料。 一. Sqoop介绍 Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如:MySQL、Oracle、Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到 阅读全文
posted @ 2020-12-22 21:56 大数据技术派 阅读(6342) 评论(2) 推荐(1)
摘要:Hive系列文章 Hive表的基本操作 Hive中的集合数据类型 Hive动态分区详解 hive中orc格式表的数据导入 Java通过jdbc连接hive 通过HiveServer2访问Hive SpringBoot连接Hive实现自助取数 hive关联hbase表 Hive udf 使用方法 Hi 阅读全文
posted @ 2020-12-21 21:32 大数据技术派 阅读(4520) 评论(0) 推荐(0)
摘要:关注公众号:大数据技术派,回复: 资料,领取1024G资料。 hive作为一个sql查询引擎,自带了一些基本的函数,比如count(计数),sum(求和),有时候这些基本函数满足不了我们的需求,这时候就要写hive hdf(user defined funation),又叫用户自定义函数。 UDF 阅读全文
posted @ 2020-12-21 13:04 大数据技术派 阅读(6683) 评论(1) 推荐(3)
摘要:除了使用础的数据类型string等,Hive中的列支持使用struct, map, array集合数据类型。 数据类型 描述 语法示例 STRUCT 和C语言中的struct或者"对象"类似,都可以通过"点"符号访问元素内容。 struct{'John', 'Doe'} MAP MAP是一组键-值对 阅读全文
posted @ 2020-12-20 16:37 大数据技术派 阅读(1748) 评论(0) 推荐(0)