会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
lxh-666
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
13
14
15
16
17
18
19
20
21
···
28
下一页
2023年8月17日
大数据之HDFS组件
摘要: HDFS是Hadoop三大组件(HDFS、MapReduce、YARN)之一 全称是:Hadoop Distributed File System(Hadoop分布式文件系统) 是Hadoop技术栈内提供的分布式数据存储解决方案 可以在多台服务器上构建存储集群,存储海量的数据
阅读全文
posted @ 2023-08-17 09:56 哈哈哈老先生
阅读(35)
评论(0)
推荐(0)
2023年8月15日
大数据分布式存储
摘要: 为什么需要分布式存储? 数据量太大,单机存储能力有上限,需要靠数量来解决问题 数量的提升带来的是网络传输、磁盘读写、CPU、内存等各方面的综合提升。 分布式组合在一起可以达到1+1>2的效果 1. 分布式系统常见的组织形式? 去中心化模式:没有明确中心,大家协调工作 中心化模式:有明确的中心,基于中
阅读全文
posted @ 2023-08-15 18:41 哈哈哈老先生
阅读(109)
评论(0)
推荐(0)
2023年8月14日
大数据之分布式
摘要: 1. 什么是计算、分布式计算? 计算:对数据进行处理,使用统计分析等手段得到需要的结果 分布式计算:多台服务器协同工作,共同完成一个计算任务 2. 分布式计算常见的2种工作模式 分散->汇总 (MapReduce就是这种模式) 中心调度->步骤执行 (大数据体系的Spark、Flink等是这种模式)
阅读全文
posted @ 2023-08-14 22:40 哈哈哈老先生
阅读(48)
评论(0)
推荐(0)
2023年8月13日
Hive函数
摘要: Hive的函数分为两大类:内置函数(Built-in Functions)、用户定义函数UDF(User-Defined Functions):
阅读全文
posted @ 2023-08-13 13:53 哈哈哈老先生
阅读(17)
评论(0)
推荐(0)
2023年8月12日
假期总结之Hive基础架构
摘要: Apache Hive其2大主要组件就是:SQL解析器以及元数据存储, 如下图。 元数据存储 通常是存储在关系数据库如 mysql/derby中。Hive 中的元数据包括表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等。 -- Hive提供了 Metastore 服务进
阅读全文
posted @ 2023-08-12 10:23 哈哈哈老先生
阅读(18)
评论(0)
推荐(0)
2023年8月11日
假期总结TABLESAMPLE函数
摘要: 进行随机抽样,本质上就是用TABLESAMPLE函数 语法1,基于随机分桶抽样: SELECT ... FROM tbl TABLESAMPLE(BUCKET x OUT OF y ON(colname | rand())) y表示将表数据随机划分成y份(y个桶) x表示从y里面随机抽取x份数据作为
阅读全文
posted @ 2023-08-11 21:57 哈哈哈老先生
阅读(189)
评论(0)
推荐(0)
2023年8月10日
假期总结之分桶表
摘要: 分桶和分区一样,也是一种通过改变表的存储模式,从而完成对表优化的一种调优方式 但和分区不同,分区是将表拆分到不同的子文件夹中进行存储,而分桶是将表拆分到固定数量的不同文件中进行存储。
阅读全文
posted @ 2023-08-10 20:16 哈哈哈老先生
阅读(13)
评论(0)
推荐(0)
2023年8月9日
Hive之分区表
摘要: 在大数据中,最常用的一种思想就是分治,我们可以把大的文件切割划分成一个个的小的文件,这样每次操作一个小的文件就会很容易了 同样的道理,在hive当中也是支持这种思想的,就是我们可以把大的数据,按照每天,或者每小时进行切分成一个个的小的文件,这样去操作小的文件就会容易得多了。 如图,一个典型的按月份分
阅读全文
posted @ 2023-08-09 11:45 哈哈哈老先生
阅读(38)
评论(0)
推荐(0)
2023年8月7日
假期总结
摘要: 分布式SQL计算
阅读全文
posted @ 2023-08-07 13:49 哈哈哈老先生
阅读(6)
评论(0)
推荐(0)
2023年8月6日
假期总结
摘要: HiveServer2是一个服务接口,能够允许远程的客户端去执行SQL请求且得到检索结果。HiveServer2的实现,依托于Thrift RPC,是HiveServer的提高版本,它被设计用来提供更好的支持对于open API例如JDBC和ODBC。HiveServer是一个可选的服务,只允许一个
阅读全文
posted @ 2023-08-06 09:23 哈哈哈老先生
阅读(9)
评论(0)
推荐(0)
上一页
1
···
13
14
15
16
17
18
19
20
21
···
28
下一页
公告