2022 年 11月 17 日随笔档案 - 黄一洋

2022年11月17日

摘要： 1. 数仓概述参考：尚硅谷数据仓库是一个为数据分析而设计的企业级数据管理系统数据仓库可集中、整合多个信息源的大量数据，借助数据仓库的分析能力，企业可从数据中获得宝贵的信息进而改进决策同时，随着时间的推移，数据仓库中积累的大量历史数据对于数据科学家和业务分析师也是十分宝贵的 2. 维度建模理论阅读全文

posted @ 2022-11-17 20:45 黄一洋阅读(42) 评论(0) 推荐(0)

HBase

摘要： HBase & Redis 相似 HBASE 和 Redis的功能上比较相似，都是nosql类型的数据库区别读写性能 HBase写快读慢，HBase的读取时长通常是几毫秒 Redis的读取时长通常是几十微秒数据类型 HBase和Redis都支持KV类型。但是Redis支持List、Set等更丰阅读全文

posted @ 2022-11-17 20:36 黄一洋阅读(32) 评论(0) 推荐(0)

HDFS

摘要：产生背景当数据量越来越大，在一个操作系统存不下，需要一种系统来管理多台机器上的文件，这就是分布式文件系统，HDFS只是分布式文件系统中的一种 HDFS使用场景：适合一次写入，多次读出的场景，且不支持文件的修改，适合用来做数据分析组成架构 NameNode 即Master，它是一个主管、管理者管阅读全文

posted @ 2022-11-17 20:31 黄一洋阅读(9) 评论(0) 推荐(0)

MapReduce

摘要： MapReduce InputFormat 默认是TextInputFormat，Key：偏移量，Value：一行内容处理小文件问题 CombineTextInputFormat，把多个小文件合并到一起进行统一切片自定义输入 Mapper setup() 初始化 map() 业务逻辑 clear 阅读全文

posted @ 2022-11-17 20:31 黄一洋阅读(11) 评论(0) 推荐(0)

Hadoop

摘要：集群部署规划注意：NameNode 和 SecondaryNameNode不要安装在同一台服务器注意：ResourceManager 也很消耗内存，不要和NameNode、SecondaryNameNode配置在同一台机器上 | | hadoop101 | hadoop102 | hadoop1 阅读全文

posted @ 2022-11-17 20:30 黄一洋阅读(15) 评论(0) 推荐(0)

HSQL

摘要： 1. 相关概念 1.1 元数据 hive的原始数据是存放在HDFS中，而元数据Metadata（表和文件的映射关系）是存放在MySQL等关系型数据库中元数据，又称中介数据、中继数据，为描述数据的数据，主要是描述数据属性的信息，用来支持如指示存储位置、历史数据、资源查找、文件记录等功能包含用Hiv 阅读全文

posted @ 2022-11-17 20:28 黄一洋阅读(96) 评论(0) 推荐(0)

Hive&Hbase&Spark

摘要：【Hive & Hbase】 1. 结论 Hbase和Hive在大数据架构中处在不同位置，Hbase主要解决实时数据查询问题，Hive主要解决数据处理和计算问题，一般是配合使用。 2. 区别 Hbase： Hadoop database 的简称，也就是基于Hadoop数据库，是一种NoSQL数据库阅读全文

posted @ 2022-11-17 20:27 黄一洋阅读(23) 评论(0) 推荐(0)

hive

摘要：简介 Hive：由Facebook开源用于解决海量结构化日志的数据统计工具 Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能本质将HQL转化成MapReduce程序（1）Hive处理的数据存储在HDFS （2）Hive分析数据底层的实现是阅读全文

posted @ 2022-11-17 20:24 黄一洋阅读(15) 评论(0) 推荐(0)

scala基础

摘要：介绍 Scalable Language 之所以说其是可伸缩的，是因为 scala 既体现了面向对象和函数式编程等不同语言范式，又融合了不同语言的新特性 The essence of Scala is the fusion of functional programming and object-o 阅读全文

posted @ 2022-11-17 20:12 黄一洋阅读(11) 评论(0) 推荐(0)

huangdb

公告