文章分类 -  课外学习

摘要:1、数据源 数据库数据不能直接作为数据仓库数据源的原因: (1)数据库要求行式存储,数据仓库要求列式存储,直接对接会导致查询速度过慢,数据仓库性能有影响 (2)数据库中存储的数据不是海量数据,数据仓库要求数据是海量数据,否则分析效果不佳 (3)数据库不是为了数据仓库而服务的,若直接对接数据仓库会导致 阅读全文
posted @ 2024-05-04 19:03 sftsgly 阅读(386) 评论(0) 推荐(0)
摘要:1、数据仓库的作用 (1)采集存储 (2)计算分析 2、数据来源 (1)业务数据 (2)用户行为 (3)爬虫数据 3、流程 (1)DataX 负责全量导入,Flink-CDC 负责增量导入 (2)DWD 存储事实表(用户具体做了什么事),DIM 存储维度表(用于描述事实表) (3)DWS 负责预聚合 阅读全文
posted @ 2024-01-01 14:28 sftsgly 阅读(87) 评论(0) 推荐(0)
摘要:1、HBase 定义 以 hdfs 为数据存储的,一种分布式,可扩展的 NoSQL 数据库 2、HBase 数据模型 HBase 数据模型的关键在于稀疏、分布式、多维、排序的映射。其中映射 map 指代非关系型数据库的 k-v 结构。 映射:由行键、列键和时间戳索引,每个值都是一个未解释的字节数组 阅读全文
posted @ 2023-10-23 20:15 sftsgly 阅读(308) 评论(0) 推荐(0)
摘要:1、Flink 特点 (1)批流统一 同一套代码,可以跑流也可以跑批 同一个 SQL,可以跑流也可以跑批 (2)性能卓越 高吞吐 低延时 (3)规模计算 支持水平扩展架构 支持超大状态与增量检查点机制 (4)生态兼容 支持与 yarn 集成 支持与 kubernetes 集成 支持单机模式运行 (5 阅读全文
posted @ 2023-10-18 10:37 sftsgly 阅读(172) 评论(0) 推荐(0)
摘要:1、Flume 定义 高可用、高可靠、分布式海量日志采集、聚合和传输的系统。流式架构,灵活简单 实时读取服务器本地磁盘的数据,将数据写入到 HDFS 中 Kafka 是一个分布式消息中间件,自带存储,提供 push 和 pull 存取数据功能。它专注于高效地传输大规模数据流, 并提供了高度可扩展的消 阅读全文
posted @ 2023-09-22 11:54 sftsgly 阅读(161) 评论(0) 推荐(0)
摘要:1、卡夫卡的定义 (1)传统 卡夫卡是一个分布式的基于发布订阅模式的消息队列,主要应用于大数据实时处理 【发布 / 订阅】 消息的发布者不会将消息直接发送给特定的订阅者,而是将发布的消息分为不同的类别,订阅者只接受感兴趣的消息 (2)最新 卡夫卡是一个开源的分布式事件流平台,被千家公司用于高性能数据 阅读全文
posted @ 2023-09-22 01:20 sftsgly 阅读(347) 评论(0) 推荐(0)
摘要:1、离线数据仓库 是由FACEBOOK开源,基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能极大提高了数据开发的效率 本质是一个Hadoop客户端 (1) Hive中每张表的数据存储在HDFS (2) Hive分析数据底层的实现是MapReduce,也可 阅读全文
posted @ 2023-09-10 00:35 sftsgly 阅读(189) 评论(0) 推荐(0)
摘要:1、为什么学习Scala? (1)Java++ 【1】基于JVM,和JAVA完全兼容,可以跨平台,移植性好,方便垃圾回收 【2】比JAVA更面向对象 【3】函数式编程语言 (2)更适合大数据处理 【1】对集合类型数据处理有非常好的支持 【2】Spark的底层用Scala编写 2、Scala和Java 阅读全文
posted @ 2023-08-10 20:50 sftsgly 阅读(80) 评论(0) 推荐(0)
摘要:1、流式数据处理 & 批量数据处理 描述的是数据处理的方式角度 2、实时数据处理 & 离线数据处理 描述的是数据处理延迟的长短: 实时数据处理一般是毫秒级别延迟 离线数据处理一般是小时 or 天级别延迟 3、SparkStreaming 准实时(秒、分钟),微批次的数据处理框架 用于流式数据的处理 阅读全文
posted @ 2023-07-27 17:53 sftsgly 阅读(96) 评论(0) 推荐(0)
摘要:1、SparkSQL SparkSQL是spark用于结构化数据处理的spark模块 Hive 是早期唯一运行在 Hadoop 上的 SQL-on-Hadoop 工具。 但是 MapReduce 计算过程中大量的中间磁盘落地过程消耗了大量的 I/O,降低的运行效率,为了提高 SQL- on-Hado 阅读全文
posted @ 2023-07-27 17:45 sftsgly 阅读(108) 评论(0) 推荐(0)
摘要:1、SPARK 基于内存的快速通用可扩展的大数据分析计算引擎包含流处理的批处理框架 一次性数据计算: 处理数据时会从存储设备中读取数据,进行逻辑操作,然后将处理的结果重新存储到介质中 处理复杂逻辑性能低 SPARK对该流程进行了更改,即不是放入磁盘而是放入内存中方便后续的操作 但这么做也可能导致内存 阅读全文
posted @ 2023-07-27 16:47 sftsgly 阅读(134) 评论(0) 推荐(0)
摘要:1、概述 zookeeper是一个开源的分布式的,为分布式框架提供协调服务的Apache项目观察者模式涉及的分布式服务管理框架 负责存储和管理用户关心的数据 如果数据状态发生变化就会通知zookeeper用户做出反应 zookeeper:文件系统+通知机制 2、特点 有一个领导者和多个跟随者组成的集 阅读全文
posted @ 2023-07-27 16:01 sftsgly 阅读(48) 评论(0) 推荐(0)
摘要:1、RPC通信原理 2、NameNode 3、DataNode 4、HDFS 5、Yarn 阅读全文
posted @ 2023-01-28 17:52 sftsgly 阅读(38) 评论(0) 推荐(0)
摘要:1、NameNode内存生产配置 (1)NameNode内存计算 每个文件块大概占用150byte,一台服务器128G内存为例,能存储多少文件块呢? 128 * 1024 * 1024 * 1024 / 150Byte ≈ 9.1亿 G MB KB Byte (2)Hadoop3.x系列,配置Nam 阅读全文
posted @ 2023-01-18 21:11 sftsgly 阅读(101) 评论(0) 推荐(0)
摘要:1、Yarn基础架构 YARN主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成。 2、Yarn工作机制 (1)MR程序提交到客户端所在的节点。 (2)YarnRunner向ResourceManager申请一个Applic 阅读全文
posted @ 2023-01-16 17:54 sftsgly 阅读(108) 评论(0) 推荐(0)
摘要:1、OutFormat数据输出 2、MapTask工作机制 (1)Read阶段:MapTask通过InputFormat获得的RecordReader,从输入InputSplit中解析出一个个key/value。 (2)Map阶段:该节点主要是将解析出的key/value交给用户编写map()函数处 阅读全文
posted @ 2023-01-15 16:31 sftsgly 阅读(120) 评论(0) 推荐(0)
摘要:1、MapReduce的定义 MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。 MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。 2、优缺点 优点:(1)Ma 阅读全文
posted @ 2023-01-14 21:50 sftsgly 阅读(95) 评论(0) 推荐(0)
摘要:1、HDFS产生的背景和定义 1)HDFS产生背景 随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。 2)HDFS定义 HDFS 阅读全文
posted @ 2023-01-13 16:30 sftsgly 阅读(91) 评论(0) 推荐(0)
摘要:1、环境搭建的流程 (1)安装多台虚拟机,系统为CentOS (2)安装epel-release yum install -y epel-release (3)如果Linux安装的是最小系统版本,还需要安装net-tool和vim yum install -y net-tools yum insta 阅读全文
posted @ 2023-01-12 19:59 sftsgly 阅读(129) 评论(0) 推荐(0)
摘要:1、Hadoop的优势 2、Hadoop 3.0组成 (1)MapReduce(计算) (2)Yarn(资源调度) (3)HDFS(数据存储) (4)辅助工具 3、HDFS架构概述 (1)NameNode(NN):存储文件元数据,如文件名、目录结构、文件属性以及每个文件的块列表和块所在的DataNo 阅读全文
posted @ 2023-01-12 15:42 sftsgly 阅读(76) 评论(0) 推荐(0)