摘要:
1. 数仓概述 参考:尚硅谷 数据仓库是一个为数据分析而设计的企业级数据管理系统 数据仓库可集中、整合多个信息源的大量数据,借助数据仓库的分析能力,企业可从数据中获得宝贵的信息进而改进决策 同时,随着时间的推移,数据仓库中积累的大量历史数据对于数据科学家和业务分析师也是十分宝贵的 2. 维度建模理论 阅读全文
posted @ 2022-11-17 20:45
黄一洋
阅读(42)
评论(0)
推荐(0)
摘要:
HBase & Redis 相似 HBASE 和 Redis的功能上比较相似,都是nosql类型的数据库 区别 读写性能 HBase写快读慢,HBase的读取时长通常是几毫秒 Redis的读取时长通常是几十微秒 数据类型 HBase和Redis都支持KV类型。但是Redis支持List、Set等更丰 阅读全文
posted @ 2022-11-17 20:36
黄一洋
阅读(32)
评论(0)
推荐(0)
摘要:
产生背景 当数据量越来越大,在一个操作系统存不下,需要一种系统来管理多台机器上的文件,这就是分布式文件系统,HDFS只是分布式文件系统中的一种 HDFS使用场景:适合一次写入,多次读出的场景,且不支持文件的修改,适合用来做数据分析 组成架构 NameNode 即Master,它是一个主管、管理者 管 阅读全文
posted @ 2022-11-17 20:31
黄一洋
阅读(9)
评论(0)
推荐(0)
摘要:
MapReduce InputFormat 默认是TextInputFormat,Key:偏移量,Value:一行内容 处理小文件问题 CombineTextInputFormat,把多个小文件合并到一起进行统一切片 自定义输入 Mapper setup() 初始化 map() 业务逻辑 clear 阅读全文
posted @ 2022-11-17 20:31
黄一洋
阅读(11)
评论(0)
推荐(0)
摘要:
集群部署规划 注意:NameNode 和 SecondaryNameNode不要安装在同一台服务器 注意:ResourceManager 也很消耗内存,不要和NameNode、SecondaryNameNode配置在同一台机器上 | | hadoop101 | hadoop102 | hadoop1 阅读全文
posted @ 2022-11-17 20:30
黄一洋
阅读(15)
评论(0)
推荐(0)
摘要:
1. 相关概念 1.1 元数据 hive的原始数据是存放在HDFS中,而元数据Metadata(表和文件的映射关系)是存放在MySQL等关系型数据库中 元数据,又称中介数据、中继数据,为描述数据的数据,主要是描述数据属性的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能 包含用Hiv 阅读全文
posted @ 2022-11-17 20:28
黄一洋
阅读(96)
评论(0)
推荐(0)
摘要:
【Hive & Hbase】 1. 结论 Hbase和Hive在大数据架构中处在不同位置,Hbase主要解决实时数据查询问题,Hive主要解决数据处理和计算问题,一般是配合使用。 2. 区别 Hbase: Hadoop database 的简称,也就是基于Hadoop数据库,是一种NoSQL数据库 阅读全文
posted @ 2022-11-17 20:27
黄一洋
阅读(23)
评论(0)
推荐(0)
摘要:
简介 Hive:由Facebook开源用于解决海量结构化日志的数据统计工具 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能 本质 将HQL转化成MapReduce程序 (1)Hive处理的数据存储在HDFS (2)Hive分析数据底层的实现是 阅读全文
posted @ 2022-11-17 20:24
黄一洋
阅读(15)
评论(0)
推荐(0)
摘要:
介绍 Scalable Language 之所以说其是可伸缩的,是因为 scala 既体现了面向对象和函数式编程等不同语言范式,又融合了不同语言的新特性 The essence of Scala is the fusion of functional programming and object-o 阅读全文
posted @ 2022-11-17 20:12
黄一洋
阅读(11)
评论(0)
推荐(0)

浙公网安备 33010602011771号