2025年7月9日
摘要:
一、Spark架构设计 二、Spark常用算子 tips1: 数据处理的生命周期tips2: repartition vs coalesce区别: 可以使用 repartition 算子随意调整(提升或降低)RDD 的并行度,而 coalesce 算子则只能用于降低 RDD 并行度 repartit
阅读全文
posted @ 2025-07-09 10:14
wzyy
阅读(27)
推荐(0)
2024年12月20日
摘要:
Watermark简介 在 Apache Flink 中,水印(Watermark) 是一种用于处理事件时间(Event Time)流数据的机制。它代表了流处理系统中对事件时间进度的理解,用来标识数据流中的时间点,从而帮助确定何时窗口应该关闭并触发计算。 水印的作用控制窗口计算:Flink 使用水印
阅读全文
posted @ 2024-12-20 18:29
wzyy
阅读(77)
推荐(0)
2024年12月12日
摘要:
在读开源代码时,英文注释看起来比较吃力,于是安装一个翻译插件第一步:安装TranslateHelper插件 配置 IDEA -> Preferences -> Plugins ,安装TranslateHelper这个插件 第二步:在百度翻译平台申请appId和secretKey地址 https://
阅读全文
posted @ 2024-12-12 20:52
wzyy
阅读(1123)
推荐(0)
2024年7月28日
摘要:
当我们在【应用程序】下面把飞连移到废纸篓时,会提示被锁定无法删除 我们需要先把软件解锁,执行以下命令, 再移到废纸篓即可 sudo /usr/bin/chflags -R noschg /Applications/CorpLink.app
阅读全文
posted @ 2024-07-28 10:07
wzyy
阅读(3079)
推荐(0)
2023年4月12日
摘要:
理解指针 指针类型和普通类型区别 package main import ( "fmt" ) type User struct { Id int64 Name string } func (user *User) getUserInfo() string { return fmt.Sprintf("
阅读全文
posted @ 2023-04-12 11:33
wzyy
阅读(46)
推荐(0)
2023年1月31日
摘要:
一、Yarn基本架构 YARN主要由ResourceManager、NodeManager、ApplicationMaster和Container组成,之间通过RPC通讯 1、ResourceManager:是一个全局的资源管理器,负责整个系统的资源管理和分配。它主要由两个组件构成:调度器(Sche
阅读全文
posted @ 2023-01-31 15:42
wzyy
阅读(337)
推荐(0)
2022年11月4日
摘要:
一、架构设计 Driver根据用户代码构建计算流图,拆解出分布式任务并分发到 Executors 中去;每个Executors收到任务,然后处理这个 RDD 的一个数据分片子集 DAGScheduler根据用户代码构建 DAG;以 Shuffle 为边界切割 Stages;基于 Stages 创建
阅读全文
posted @ 2022-11-04 15:38
wzyy
阅读(264)
推荐(1)
2022年10月11日
摘要:
个人理解,欢迎指正 数据库 引擎 写数据 读数据 补充 MySql InnoDB:支持事务,高速读写性能一般 Myisam:不支持事务,高速读写性能好 以InnoDB更新一条记录为例 1、B+Tree搜索找到这行记录,如果数据页在内存直接返回给【执行器】,否则从磁盘读入内存再返回 2、【执行器】更新
阅读全文
posted @ 2022-10-11 17:22
wzyy
阅读(352)
推荐(0)
2022年9月28日
摘要:
简单来说就是利用hash算法计算出hash位,如果找到说明【可能存在】,因为别的值也可能算出同一个hash位,如果找不到说明【一定不存在】 https://www.cnblogs.com/xiaoniuhululu/p/16736861.html https://zhuanlan.zhihu.com
阅读全文
posted @ 2022-09-28 17:09
wzyy
阅读(27)
推荐(0)
2022年8月16日
摘要:
一、功能简介 Atlas 是一组可扩展的核心基础治理服务,使企业能够高效地满足其在 Hadoop 中的合规性要求,并允许与整个企业数据生态系统集成。Apache Atlas 为组织提供开放的元数据管理和治理功能,以构建其数据资产的目录,对这些资产进行分类和治理,并为数据科学家、分析师和数据治理团队提
阅读全文
posted @ 2022-08-16 16:51
wzyy
阅读(2011)
推荐(1)