Hive-day14 Hive优化
    
            
摘要:Hive优化 1.1	hive的随机抓取策略 理论上来说,Hive中的所有sql都需要进行mapreduce,但是hive的抓取策略帮我们 省略掉了这个过程,把切片split的过程提前帮我们做了。 set hive.fetch.task.conversion=none; (一旦进行这么设置,sele
        
阅读全文
                posted @ 
2022-07-01 22:20 
+1000
        
阅读(42) 
         
        推荐(0)     
             
            
            
    Hive-day13 Hive各种函数分类
    
            
摘要:Hive自定义函数UserDefineFunction UDF:一进一出 定义UDF函数要注意下面几点: 继承org.apache.hadoop.hive.ql.exec.UDF 重写evaluate(),这个方法不是由接口定义的,因为它可接受的参数的个数,数据类型都是不确定的。Hive会检查UDF
        
阅读全文
                posted @ 
2022-07-01 22:19 
+1000
        
阅读(51) 
         
        推荐(0)     
             
            
            
    Hive-day12 Hive行列转换
    
            
摘要:Hive 行转列 lateral view explode create table testArray2( name string, weight array<string> )row format delimited fields terminated by '\t' COLLECTION IT
        
阅读全文
                posted @ 
2022-07-01 21:42 
+1000
        
阅读(33) 
         
        推荐(0)     
             
            
            
    Hive-day11 Hive窗口函数
    
            
摘要:Hive窗口函数 普通的聚合函数每组(Group by)只返回一个值,而开窗函数则可为窗口中的每行都返回一个值。 简单理解,就是对查询的结果多出一列,这一列可以是聚合值(聚合开窗函数),也可以是排序值(排序开窗函数)。 开窗函数一般就是说的是over()函数,其窗口是由一个 OVER 子句 定义的多
        
阅读全文
                posted @ 
2022-07-01 21:38 
+1000
        
阅读(50) 
         
        推荐(0)     
             
            
            
    Hive-day10 DQL和Hive内置函数
    
            
摘要:Hive查询语法(DQL) 全局排序 order by 会对输入做全局排序,因此在执行MapReduce任务时只有一个reducer,这会导致当输入规模较大时,需要较长的计算时间。因为所有的数据都要经过唯一的reducer,所以数据大的情况下,一个reducer的处理速度有限 使用 order by
        
阅读全文
                posted @ 
2022-07-01 21:05 
+1000
        
阅读(52) 
         
        推荐(0)     
             
            
            
    Hive-day09 HiveJDBC
    
            
摘要:Hive JDBC 启动hiveserver2 在使用Hive JDBC之前必须先启动客服端服务,这样用其他节点,或者idea就可以连接hive数据库,命令为: hive --service hiveserver2 & 或者 hiveserver2 & 新建maven项目并添加两个依赖 <depen
        
阅读全文
                posted @ 
2022-07-01 20:52 
+1000
        
阅读(33) 
         
        推荐(0)     
             
            
            
    Hive-day08 Hive分桶
    
            
摘要:Hive分桶 2.1	业务场景 数据分桶的适用场景: 分区提供了一个隔离数据和优化查询的便利方式,不过并非所有的数据都可形成合理的分区,尤其是需要确定合适大小的分区划分方式 不合理的数据分区划分方式可能导致有的分区数据过多,而某些分区没有什么数据的尴尬情况**(数据倾斜)** 分桶是将数据集分解为更
        
阅读全文
                posted @ 
2022-06-30 16:21 
+1000
        
阅读(129) 
         
        推荐(0)     
             
            
            
    Hive-day07 Hive分区
    
            
摘要:Hive分区 在大数据中,最常见的一种思想就是分治,我们可以把大的文件切割划分成一个个的小的文件,这样每次操作一个个小的文件就会很容易了,同样的道理,在hive当中也是支持这种思想的,就是我们可以把大的数据,按照每天或者每小时切分成一个个小的文件,这样去操作小的文件就会容易很多了。 假如现在我们公司
        
阅读全文
                posted @ 
2022-06-30 08:53 
+1000
        
阅读(80) 
         
        推荐(0)     
             
            
            
    Hive-day06 Hive内外部表
    
            
摘要:Hive内外部表 hive内部表 默认建表的类型就是内部表 // 内部表 create table students_internal ( id bigint, name string, age int, gender string, clazz string ) ROW FORMAT DELIMI
        
阅读全文
                posted @ 
2022-06-29 20:01 
+1000
        
阅读(64) 
         
        推荐(0)     
             
            
            
    Hive-day05 Hive基本操作
    
            
摘要:2.3	Hive表操作 Hive的存储格式: Hive没有专门的数据文件格式,常见的有以下几种(加粗为常用格式):  TEXTFILE  SEQUENCEFILE  AVRO  RCFILE  ORCFILE  PARQUET TextFile: TEXTFILE 即正常的文本格式,是H
        
阅读全文
                posted @ 
2022-06-26 18:56 
+1000
        
阅读(94) 
         
        推荐(0)     
             
            
            
    Hive-day04 Hive基本概念
    
            
摘要:1、Hive基本概念 1.1	Hive简介 Hive本质是将SQL转换为MapReduce的任务进行运算,底层由HDFS来提供数据存储,说白了hive可以理解为一个将SQL转换为MapReduce的任务的工具,甚至更近一步说hive就是一个MapReduce客户端。 为什么使用Hive? 如果直接使
        
阅读全文
                posted @ 
2022-06-26 18:48 
+1000
        
阅读(124) 
         
        推荐(0)     
             
            
            
    Hive-day03 Hive安装
    
            
摘要:Hive的安装和使用 我们的版本约定: JAVA_HOME=/usr/local/soft/jdk1.8.0_171 HADOOP_HOME=/usr/local/soft/hadoop-2.7.6 HIVE_HOME=/usr/local/soft/hive-1.2.1 一、离线安装MySQL(已
        
阅读全文
                posted @ 
2022-06-26 18:09 
+1000
        
阅读(38) 
         
        推荐(0)     
             
            
            
    Hive-day02 概述
    
            
摘要:二、Hive概述 2.1	什么是hive?(面试题) 1. hive是基于hadoop的数据仓库建模工具之一(后面还有TEZ,Spark)。 2. hive可以使用类sql方言,对存储在hdfs上的数据进行分析和管理。传入一条交互式sql在海量数据中查询分析结果的工具。 2.2	对于hive的理
        
阅读全文
                posted @ 
2022-06-26 17:48 
+1000
        
阅读(11) 
         
        推荐(0)     
             
            
            
    Hive-day01 数据库和数据仓库
    
            
摘要:一、数据库、数据仓库概述 如今,随着诸如互联网以及物联网等技术的不断发展,越来越多的数据被生产出来-据统计,每天大约有超过2.5亿亿字节的各种各样数据产生。这些数据需要被存储起来并且能够被方便的分析和利用。 随着大数据技术的不断更新和迭代,数据管理工具得到了飞速的发展,相关概念如雨后春笋一般应运而生
        
阅读全文
                posted @ 
2022-06-26 16:57 
+1000
        
阅读(66) 
         
        推荐(0)