摘要: 第一章 为什么使用Maven 获取jar包 使用Maven之前,自行在网络中下载jar包,效率较低。如 【谷歌、百度、CSDN....】 使用Maven之后,统一在一个地址下载资源jar包【阿里云镜 像服务器等...】 添加jar包 使用Maven之前,将jar复制到项目工程中,jar包添加到项目 阅读全文
posted @ 2024-06-06 11:06 弯弯绕绕 阅读(30) 评论(0) 推荐(0)
摘要: 1、Hive分区(十分重要!!) 分区的目的:避免全表扫描,加快查询速度! 在大数据中,最常见的一种思想就是分治,我们可以把大的文件切割划分成一个个的小的文件,这样每次操作一个个小的文件就会很容易了,同样的道理,在hive当中也是支持这种思想的,就是我们可以把大的数据,按照每天或者每小时切分成一个个 阅读全文
posted @ 2024-06-06 11:04 弯弯绕绕 阅读(80) 评论(0) 推荐(0)
摘要: 、Hive基本概念 1.1 Hive简介 Hive本质是将SQL转换为MapReduce的任务进行运算,底层由HDFS来提供数据存储,说白了hive可以理解为一个将SQL转换为MapReduce的任务的工具,甚至更近一步说hive就是一个MapReduce客户端。 为什么使用Hive? 如果直接使用 阅读全文
posted @ 2024-06-06 11:02 弯弯绕绕 阅读(108) 评论(0) 推荐(0)
摘要: 本次搭建的hive版本是3.1.2,hadoop版本是3.1.3 阅读全文
posted @ 2024-06-06 10:59 弯弯绕绕 阅读(0) 评论(0) 推荐(0)