随笔分类 -  课程 / 大数据

摘要:Foreword Before writing this article, I wrote some history of big data components and some of its evaluations intermittently, but I didn't feel satisf 阅读全文
posted @ 2023-07-26 14:45 ImreW 阅读(78) 评论(0) 推荐(0)
摘要:一、数仓架构发展史 1.发展史 时代的变迁,生死的轮回,历史长河滔滔,没有什么是永恒的,只有变化才是不变的,技术亦是如此,当你选择互联网的那一刻,你就相当于乘坐了一个滚滚向前的时代列车,开往未知的方向,不论什么样的技术架构只有放在当前的时代背景下,才是有意义的,人生亦是如此。 时间就是一把尺子,它能 阅读全文
posted @ 2023-07-24 17:02 ImreW 阅读(1754) 评论(2) 推荐(3)
摘要:一、技术生态 1.初步 Hadoop只是一套工具的总称,它包含三部分:HDFS,Yarn,MapReduce,功能分别是分布式文件存储、资源调度和计算。 按理来说,这就足够了,就可以完成大数据分析了。 但第一个问题就是麻烦。这一套相当于用Yarn调度资源,读取HDFS文件内容进行MR计算。要写Jav 阅读全文
posted @ 2023-07-20 14:54 ImreW 阅读(493) 评论(0) 推荐(0)
摘要:(二)DataStream API DataStream是Flink编写流处理作业的API。我们前面说过一个完整的Flink处理程序应该包含三部分:数据源(Source)、转换操作(Transformation)、结果接收(Sink)。下面我们从这三部分来看DataStream API。 (五)结果 阅读全文
posted @ 2023-07-04 11:56 ImreW 阅读(100) 评论(0) 推荐(0)
摘要:(二)DataStream API DataStream是Flink编写流处理作业的API。我们前面说过一个完整的Flink处理程序应该包含三部分:数据源(Source)、转换操作(Transformation)、结果接收(Sink)。下面我们从这三部分来看DataStream API。 addSo 阅读全文
posted @ 2023-07-04 11:51 ImreW 阅读(257) 评论(0) 推荐(0)
摘要:Flink 的 DataSet 和 DataStream 的 API,并模拟了实时计算的场景。 说好的流批一体呢 现状 Flink 很重要的一个特点是“流批一体”,然而事实上 Flink 并没有完全做到所谓的“流批一体”,即编写一套代码,可以同时支持流式计算场景和批量计算的场景。目前截止 1.10 阅读全文
posted @ 2023-07-04 11:34 ImreW 阅读(48) 评论(0) 推荐(0)
摘要:准备工作 Java环境 Kafka安装包(已包含zookeeper) 安装步骤 1 Java安装 自行百度 2 下载、安装Kafka 打开 下载地址 选择下图红框中的版本,Kafka包名组成: Scala版本 - Kafka自身版本 下载完成之后解压,目录如下图: 3 启动服务 3.1 启动ZooK 阅读全文
posted @ 2023-07-04 10:45 ImreW 阅读(454) 评论(0) 推荐(0)
摘要:(一)Flink的并发执行 ,一个Flink程序可以由不同的task(如:transformations/opterators,data sources及data sinks等)组成,一个task会分发到多个并发实例中运行,并且每个并发实例处理task的部分输入数据集。一个task的并发实例数叫做p 阅读全文
posted @ 2023-07-03 15:35 ImreW 阅读(322) 评论(0) 推荐(0)
摘要:(二)DataStream API DataStream是Flink编写流处理作业的API。我们前面说过一个完整的Flink处理程序应该包含三部分:数据源(Source)、转换操作(Transformation)、结果接收(Sink)。下面我们从这三部分来看DataStream API。 (四)数据 阅读全文
posted @ 2023-07-03 10:19 ImreW 阅读(49) 评论(0) 推荐(0)