随笔分类 - Hive
摘要:hive和mysql的笔记-反向overwrite,避免重复插入数据,量表关联更新 1反向overwrite 操作->解决错误的插入数据的问题。 描述: 例如 学生表:student<id,name,createtime> 在学生表中插入数据,首先我们在23号插入一条数据,然后又插入一条
阅读全文
摘要:在hive中造数据 1 . 创建表单 分区表 CREATE TABLE <table_name> (<column> <data_type>, <column> <data_type>, ...) CLUSTERED BY (<bucket_key>) INTO <n> BUCKETS 单值分区表
阅读全文
摘要:Linux中的hive使用小技巧 1 在hive中可以看出我们在那一层中,而且可以显示表中的字段 2 配置如下(CDH中): 目录如下:在目录汇总添加如下参数(为隐藏文件使用 ls -a 命令查看即可) /opt/cloudera/parcels/CDH/lib/hive/bin
阅读全文
摘要:TopN问题 需要确定使用什么排名函数,包含三种函数:row_number()、rank()、dense_rank() 每个班级的分数为前3名的学生 --建表语句 create table score(sid string, class string, score int) row format d
阅读全文
摘要:Hive 常见面试题总结: 1、Hive的HSQL转换为MapReduce的过程? 1、HiveSQL →AST(抽象语法树) → QB(查询块) →OperatorTree(操作树)->优化后的操作树->mapreduce任务树->优化后的mapreduce任务树 2、请说明hive中 Sort
阅读全文
摘要:hive 课下练习 -- count(*),count(1),count(字段名)区别 select count(*) from score; -- 最慢的 一般不用它 select count(1) from score; -- 最快的 但是它会统计null值,需要注意。 select count
阅读全文
摘要:hive-基本函数_窗口函数_行列转换_UDF_连续登录问题 SQL练习 1、count(*)、count(1) 、count('字段名') 区别 从执行结果来看 count(*)包括了所有的列,相当于行数,在统计结果的时候,不会忽略列值为NULL 最慢的 count(1)包括了忽略所有列,用1代表
阅读全文
摘要:Hive_优化学习 Hive优化(面试宝典)大部分需要开启额外的配置 1.1 hive的随机抓取策略 理论上来说,Hive中的所有sql都需要进行mapreduce,但是hive的抓取策略帮我们 省略掉了这个过程,把切片split的过程提前帮我们做了。 set hive.fetch.task.con
阅读全文
摘要:4、Hive查询语法(DQL) SELECT [ALL | DISTINCT] select_expr, select_expr, ... FROM table_reference [WHERE where_condition] [GROUP BY col_list] [ORDER BY col_l
阅读全文
摘要:2、Hive的基本操作 2.1 Hive库操作 2.1.1 创建数据库 1)创建一个数据库,数据库在HDFS上的默认存储路径是/hive/warehouse/*.db。 create database testdb; 2)避免要创建的数据库已经存在错误,增加if not exists判断。(标准写法
阅读全文
摘要:Hive1.2.1学习 1、Hive分区 在大数据中,最常见的一种思想就是分治,我们可以把大的文件切割划分成一个个的小的文件,这样每次操作一个个小的文件就会很容易了,同样的道理,在hive当中也是支持这种思想的,就是我们可以把大的数据,按照每天或者每小时切分成一个个小的文件,这样去操作小的文件就会容
阅读全文
摘要:Hive1.2.1_hive介绍和三种交互方式 1、Hive基本概念 1.1 Hive简介 Hive本质是将SQL转换为MapReduce的任务进行运算,底层由HDFS来提供数据存储,说白了hive可以理解为一个将SQL转换为MapReduce的任务的工具,甚至更近一步说hive就是一个MapRed
阅读全文
摘要:hive-概述与安装 数据仓库架构(手绘,引出hive在其中的角色) 数据仓库层的划分: 2.1 什么是hive?(面试题) 1:hive是基于hadoop的数据仓库建模工具之一(后面还有TEZ,Spark)。 2:hive可以使用类sql方言,对存储在hdfs上的数据进行分析和管理。传入一
阅读全文
摘要:Hive(数据仓库建模工具之一) 一、数据库、数据仓库概述 如今,随着诸如互联网以及物联网等技术的不断发展,越来越多的数据被生产出来-据统计,每天大约有超过2.5亿亿字节的各种各样数据产生。这些数据需要被存储起来并且能够被方便的分析和利用。 随着大数据技术的不断更新和迭代,数据管理工具得到了飞速的发
阅读全文

浙公网安备 33010602011771号