2022年6月26日
摘要: 2.3 Hive表操作 Hive的存储格式: Hive没有专门的数据文件格式,常见的有以下几种(加粗为常用格式): ​ TEXTFILE ​ SEQUENCEFILE ​ AVRO ​ RCFILE ​ ORCFILE ​ PARQUET TextFile: TEXTFILE 即正常的文本格式,是H 阅读全文
posted @ 2022-06-26 18:56 +1000 阅读(100) 评论(0) 推荐(0)
摘要: 1、Hive基本概念 1.1 Hive简介 Hive本质是将SQL转换为MapReduce的任务进行运算,底层由HDFS来提供数据存储,说白了hive可以理解为一个将SQL转换为MapReduce的任务的工具,甚至更近一步说hive就是一个MapReduce客户端。 为什么使用Hive? 如果直接使 阅读全文
posted @ 2022-06-26 18:48 +1000 阅读(128) 评论(0) 推荐(0)
摘要: Hive的安装和使用 我们的版本约定: JAVA_HOME=/usr/local/soft/jdk1.8.0_171 HADOOP_HOME=/usr/local/soft/hadoop-2.7.6 HIVE_HOME=/usr/local/soft/hive-1.2.1 一、离线安装MySQL(已 阅读全文
posted @ 2022-06-26 18:09 +1000 阅读(38) 评论(0) 推荐(0)
摘要: 二、Hive概述 2.1 什么是hive?(面试题) ​1. hive是基于hadoop的数据仓库建模工具之一(后面还有TEZ,Spark)。 ​2. hive可以使用类sql方言,对存储在hdfs上的数据进行分析和管理。传入一条交互式sql在海量数据中查询分析结果的工具。 2.2 对于hive的理 阅读全文
posted @ 2022-06-26 17:48 +1000 阅读(12) 评论(0) 推荐(0)
摘要: 一、数据库、数据仓库概述 如今,随着诸如互联网以及物联网等技术的不断发展,越来越多的数据被生产出来-据统计,每天大约有超过2.5亿亿字节的各种各样数据产生。这些数据需要被存储起来并且能够被方便的分析和利用。 随着大数据技术的不断更新和迭代,数据管理工具得到了飞速的发展,相关概念如雨后春笋一般应运而生 阅读全文
posted @ 2022-06-26 16:57 +1000 阅读(67) 评论(0) 推荐(0)
摘要: HDFS的读写流程(重点!) 写数据 写数据就是将客户端上的数据上传到HDFS 2.6.1 宏观过程 每一个block块都需要进行机架感知,得到block块以及副本的存储DN的节点,然后DN节点之间组成pipeline,然后客户端将block块拆分成多个packet,每个packet大小为64K,然 阅读全文
posted @ 2022-06-26 16:30 +1000 阅读(82) 评论(0) 推荐(0)
摘要: hadoop相关进程 HDFS相关(NN,DN,SNN) NameNode(NN) NameNode中存储的信息: 1.文件 --> 元数据 元数据包括:名称,大小,时间,权限等等 2.文件 --> Blocks(每128M生成一个Block块) block0 - 111 block1 - 222 阅读全文
posted @ 2022-06-26 15:45 +1000 阅读(88) 评论(0) 推荐(0)