摘要: 简介 Hive:由Facebook开源用于解决海量结构化日志的数据统计工具 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能 本质 将HQL转化成MapReduce程序 (1)Hive处理的数据存储在HDFS (2)Hive分析数据底层的实现是 阅读全文
posted @ 2022-11-17 20:24 黄一洋 阅读(15) 评论(0) 推荐(0)
摘要: 介绍 Scalable Language 之所以说其是可伸缩的,是因为 scala 既体现了面向对象和函数式编程等不同语言范式,又融合了不同语言的新特性 The essence of Scala is the fusion of functional programming and object-o 阅读全文
posted @ 2022-11-17 20:12 黄一洋 阅读(10) 评论(0) 推荐(0)
摘要: Docker为什么会出现 开发-上线,两套环境 而环境配置是十分麻烦的,实现开发即运维,将环境直接打包在一起,这样就不需要重新配置环境 类比软件安装:java - apk - 发布(应用商店) - 下载安装 - 使用apk Docker使用:java - jar(环境) - 打包项目带上环境(镜像) 阅读全文
posted @ 2022-11-12 19:12 黄一洋 阅读(9) 评论(0) 推荐(0)
摘要: 状态的管理 在Flink中,算子任务可以分为无状态和有状态两种 无状态算子包括map、filter、flatMap等,有状态算子包括聚合算子、窗口算子等 有状态算子的一般处理流程:算子任务接收到上游发来的数据;获取当前状态;根据业务逻辑进行计算,更新状态;得到计算结果,输出发送到下游任务 Flink 阅读全文
posted @ 2022-11-07 13:39 黄一洋 阅读(29) 评论(0) 推荐(0)
摘要: 并行度 Spark基于 MapReduce 架构的思想是“数据不动代码动”, 那么 Flink 就类似“代码不动数据流动”,原因就在于流式数据本身是连续到来的、我们不会同时传输所有数据,这其实是更符合数据流本身特点的处理方式 怎样实现数据并行呢? 其实也很简单,我们把一个算子操作,“复制”多份到多个 阅读全文
posted @ 2022-11-07 12:55 黄一洋 阅读(22) 评论(0) 推荐(0)
摘要: 简单划分,多流转换可以分为“分流”和“合流”两大类 目前分流的操作一般是通过侧输出流(side output)来实现 合流的算子比较丰富,根据不同的需求可以调用 union、 connect、join 以及 coGroup 等接口进行连接合并操作 分流 分流如果采用 filter算子 来实现,其本质 阅读全文
posted @ 2022-11-06 15:02 黄一洋 阅读(26) 评论(0) 推荐(0)
摘要: 需求分析 需求:网站中一个非常经典的例子,就是实时统计一段时间内的热门 url。例如,需要统计最近 10 秒钟内最热门的两个 url 链接,并且每 5 秒钟更新一次。 我们知道,这可以用一个滑动窗口 来实现,而“热门度”一般可以直接用访问量来表示。于是就需要开滑动窗口收集 url 的访问 数据,按照 阅读全文
posted @ 2022-11-05 19:20 黄一洋 阅读(28) 评论(0) 推荐(0)
摘要: 无论是基本的转换、聚合,还是更为复杂的窗口操作,其实都是基于 DataStream 进行转换的;所以可以统称为 DataStream API,这也是 Flink 编程的核心 在更底层,我们可以不定义任何具体的算子(比如 map,filter,或者 window),而只是提炼出一个统一的 “处理”(p 阅读全文
posted @ 2022-11-05 18:22 黄一洋 阅读(14) 评论(0) 推荐(0)
摘要: 富函数类(Rich Function Classes) “富函数类” 也是 DataStream API 提供的一个函数类的接口,所有的 Flink 函数类都有其 Rich 版本 Rich Function 有生命周期的概念,典型的生命周期方法有: open()方法,是 Rich Function 阅读全文
posted @ 2022-11-03 23:45 黄一洋 阅读(34) 评论(0) 推荐(0)
摘要: Flink 的运行时架构中,最重要的就是两大组件:作业管理器(JobManger)和任务管理器(TaskManager) 对于一个提交执行的作业, JobManager 是真正意义上的“管理者”(Master),负责管理调度,所以在不考虑高可用的情况下只能有一个;而 TaskManager 是“工作 阅读全文
posted @ 2022-11-03 23:44 黄一洋 阅读(20) 评论(0) 推荐(0)