Hive - 随笔分类 - 大数据技术派

Hive之同比环比的计算

摘要：Hive系列文章 Hive表的基本操作 Hive中的集合数据类型 Hive动态分区详解 hive中orc格式表的数据导入 Java通过jdbc连接hive 通过HiveServer2访问Hive SpringBoot连接Hive实现自助取数 hive关联hbase表 Hive udf 使用方法 Hi 阅读全文

posted @ 2022-02-17 22:06 大数据技术派阅读(937) 评论(0) 推荐(0)

Hive实战—时间滑动窗口计算

摘要：关注公众号：大数据技术派，回复: 资料，领取1024G资料。时间滑动计算今天遇到一个需求大致是这样的，我们有一个业务涉及到用户打卡，用户可以一天多次打卡，我们希望计算出7天内打卡8次以上，且打卡时间分布在4天以上的时间，当然这只是个例子，我们具体解释一下这个需求用户一天可以打卡多次，所以要求打阅读全文

posted @ 2021-12-23 21:58 大数据技术派阅读(1127) 评论(0) 推荐(2)

Hive实战UDF 外部依赖文件找不到的问题

摘要：关注公众号：大数据技术派，回复“资料”，领取1000G资料。其实这篇文章的起源是，我司有数据清洗时将ip转化为类似中国-湖北-武汉地区这种需求。由于ip服务商提供的Demo，只能在本地读取，我需要将ip库上传到HDFS分布式存储，每个计算节点再从HDFS下载到本地。那么到底能不能直接从HDFS读阅读全文

posted @ 2021-12-16 12:58 大数据技术派阅读(722) 评论(0) 推荐(0)

Hive处理Json数据

摘要：Json 格式的数据处理 Json 数据格式是我们比较常用的的一种数据格式，例如埋点数据、业务端的数据、前后端调用都采用的是这种数据格式，所以我们很有必要学习一下这种数据格式的处理方法准备数据 cat json.data {"movie":"1193","rate":"5","timeStamp" 阅读全文

posted @ 2021-11-30 22:28 大数据技术派阅读(982) 评论(0) 推荐(0)

大数据SQL中的Join谓词下推，真的那么难懂？

摘要：听到谓词下推这个词，是不是觉得很高大上，找点资料看了半天才能搞懂概念和思想，借这个机会好好学习一下吧。引用范欣欣大佬的博客中写道，以前经常满大街听到谓词下推，然而对谓词下推却总感觉懵懵懂懂，并不明白的很真切。这里拿出来和大家交流交流。个人认为谓词下推有两个层面的理解：其一是逻辑执行计划优化层面的阅读全文

posted @ 2021-11-09 22:22 大数据技术派阅读(629) 评论(3) 推荐(0)

Hive计算最大连续登陆天数

摘要：关注公众号：大数据技术派，回复: 资料，领取1024G资料。强哥说他发现了财富密码，最近搞了一套股票算法，其中有一点涉及到股票连续涨停天数的计算方法，我们都知道股票周末是不开市的，这里有个断层，需要一点技巧。我问是不是时间序列，他说我瞎扯，我也知道自己是瞎扯。问他方法，他竟然不告诉我，这么多年的兄阅读全文

posted @ 2021-11-04 08:40 大数据技术派阅读(1756) 评论(4) 推荐(2)

Hive面试题整理（一）

摘要：1、Hive表关联查询，如何解决数据倾斜的问题？（☆☆☆☆☆） 1）倾斜原因：map输出数据按key Hash的分配到reduce中，由于key分布不均匀、业务数据本身的特、建表时考虑不周、等原因造成的reduce 上的数据量差异过大。（1）key分布不均匀; （2）业务数据本身的特性; （3）建阅读全文

posted @ 2021-10-23 11:04 大数据技术派阅读(872) 评论(0) 推荐(0)

彻底解决Hive小文件问题

摘要：关注公众号：大数据技术派，回复: 资料，领取1024G资料。最近发现离线任务对一个增量Hive表的查询越来越慢，这引起了我的注意，我在cmd窗口手动执行count操作查询发现，速度确实很慢，才不到五千万的数据，居然需要300s，这显然是有问题的，我推测可能是有小文件。我去hdfs目录查看了一下该阅读全文

posted @ 2021-09-20 14:02 大数据技术派阅读(4364) 评论(0) 推荐(0)

一文彻底搞懂Hive的数据存储与压缩

摘要：关注公众号：大数据技术派，回复: 资料，领取1024G资料。行存储与列存储当今的数据处理大致可分为两大类，联机事务处理 OLTP(on-line transaction processing)联机分析处理 OLAP(On-Line Analytical Processing)=，OLTP 是传统阅读全文

posted @ 2021-09-19 19:54 大数据技术派阅读(2439) 评论(0) 推荐(0)

Hadoop 数据迁移用法详解

摘要：Hive系列文章 Hive表的基本操作 Hive中的集合数据类型 Hive动态分区详解 hive中orc格式表的数据导入 Java通过jdbc连接hive 通过HiveServer2访问Hive SpringBoot连接Hive实现自助取数 hive关联hbase表 Hive udf 使用方法 Hi 阅读全文

posted @ 2021-06-09 23:32 大数据技术派阅读(1058) 评论(0) 推荐(1)

学习建议，大数据组件那么多，可以重点学习这几个

摘要：经常有同学问我，基于Hadoop生态圈的大数据组件有很多，怎么学的过来呢，毕竟精力有限，我们需要有侧重点，我觉得下面这几个组件至关重要，是基础组件，大部分人都需要会的，其它组件可以用的时候再去查查资料学习。 hadoop Hbase Hive Spark Flink Kafka Hadoop 是大数阅读全文

posted @ 2021-05-25 21:55 大数据技术派阅读(1152) 评论(1) 推荐(2)

Hive整合Hbase

摘要：HBase 虽然可以存储数亿或数十亿行数据，但是对于数据分析来说，不太友好，只提供了简单的基于 Key 值的快速查询能力，没法进行大量的条件查询。现有hbase的查询工具有很多如：Hive，Tez，Impala，Shark/Spark，Phoenix等。今天主要说Hive，Hive方便地提供了Hiv 阅读全文

posted @ 2021-01-20 22:45 大数据技术派阅读(634) 评论(0) 推荐(0)

Hive表的基本操作

摘要：1. 创建表 create table语句遵从sql语法习惯，只不过Hive的语法更灵活。例如，可以定义表的数据文件存储位置，使用的存储格式等。 create table if not exists test.user1( name string comment 'name', salary flo 阅读全文

posted @ 2021-01-10 19:57 大数据技术派阅读(1157) 评论(0) 推荐(0)

Hive 中的四种排序详解，再也不会混淆用法了

摘要：关注公众号：大数据技术派，回复: 资料，领取1024G资料。 Hive 中的四种排序排序操作是一个比较常见的操作，尤其是在数据分析的时候，我们往往需要对数据进行排序，hive 中和排序相关的有四个关键字，今天我们就看一下，它们都是什么作用。数据准备下面我们有一份温度数据,tab 分割 2008 阅读全文

posted @ 2021-01-07 09:15 大数据技术派阅读(7000) 评论(0) 推荐(1)

Hive基于UDF进行文本分词

摘要：本文大纲 UDF 简介 Hive作为一个sql查询引擎，自带了一些基本的函数，比如count(计数)，sum(求和)，有时候这些基本函数满足不了我们的需求，这时候就要写hive hdf(user defined funation)，又叫用户自定义函数。编写Hive UDF的步骤：添加相关依赖，创建阅读全文

posted @ 2020-12-31 09:14 大数据技术派阅读(1130) 评论(0) 推荐(0)

Hive动态分区详解

摘要：Hive系列文章 Hive表的基本操作 Hive中的集合数据类型 Hive动态分区详解 hive中orc格式表的数据导入 Java通过jdbc连接hive 通过HiveServer2访问Hive SpringBoot连接Hive实现自助取数 hive关联hbase表 Hive udf 使用方法 Hi 阅读全文

posted @ 2020-12-23 22:35 大数据技术派阅读(11102) 评论(0) 推荐(0)

sqoop用法之mysql与hive数据导入导出

摘要：关注公众号：大数据技术派，回复: 资料，领取1024G资料。一. Sqoop介绍 Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具，可以将一个关系型数据库（例如：MySQL、Oracle、Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到阅读全文

posted @ 2020-12-22 21:56 大数据技术派阅读(6344) 评论(2) 推荐(1)

彻底理解Hive中的锁

摘要：Hive系列文章 Hive表的基本操作 Hive中的集合数据类型 Hive动态分区详解 hive中orc格式表的数据导入 Java通过jdbc连接hive 通过HiveServer2访问Hive SpringBoot连接Hive实现自助取数 hive关联hbase表 Hive udf 使用方法 Hi 阅读全文

posted @ 2020-12-21 21:32 大数据技术派阅读(4521) 评论(0) 推荐(0)

Hive中的UDF详解

摘要：关注公众号：大数据技术派，回复: 资料，领取1024G资料。 hive作为一个sql查询引擎，自带了一些基本的函数，比如count(计数)，sum(求和)，有时候这些基本函数满足不了我们的需求，这时候就要写hive hdf(user defined funation)，又叫用户自定义函数。 UDF 阅读全文

posted @ 2020-12-21 13:04 大数据技术派阅读(6689) 评论(1) 推荐(3)

Hive中的集合数据类型

摘要：除了使用础的数据类型string等，Hive中的列支持使用struct, map, array集合数据类型。数据类型描述语法示例 STRUCT 和C语言中的struct或者"对象"类似，都可以通过"点"符号访问元素内容。 struct{'John', 'Doe'} MAP MAP是一组键-值对阅读全文

posted @ 2020-12-20 16:37 大数据技术派阅读(1748) 评论(0) 推荐(0)

大数据技术派

关注公众号：大数据技术派，回复“资料”，领取1000G资料。

随笔分类 - Hive

公告