1 2 3 4 5 ··· 16 下一页
  2025年7月9日
摘要: 一、Spark架构设计 二、Spark常用算子 tips1: 数据处理的生命周期tips2: repartition vs coalesce区别: 可以使用 repartition 算子随意调整(提升或降低)RDD 的并行度,而 coalesce 算子则只能用于降低 RDD 并行度 repartit 阅读全文
posted @ 2025-07-09 10:14 wzyy 阅读(27) 评论(0) 推荐(0)
  2024年12月20日
摘要: Watermark简介 在 Apache Flink 中,水印(Watermark) 是一种用于处理事件时间(Event Time)流数据的机制。它代表了流处理系统中对事件时间进度的理解,用来标识数据流中的时间点,从而帮助确定何时窗口应该关闭并触发计算。 水印的作用控制窗口计算:Flink 使用水印 阅读全文
posted @ 2024-12-20 18:29 wzyy 阅读(77) 评论(0) 推荐(0)
  2024年12月12日
摘要: 在读开源代码时,英文注释看起来比较吃力,于是安装一个翻译插件第一步:安装TranslateHelper插件 配置 IDEA -> Preferences -> Plugins ,安装TranslateHelper这个插件 第二步:在百度翻译平台申请appId和secretKey地址 https:// 阅读全文
posted @ 2024-12-12 20:52 wzyy 阅读(1123) 评论(0) 推荐(0)
  2024年7月28日
摘要: 当我们在【应用程序】下面把飞连移到废纸篓时,会提示被锁定无法删除 我们需要先把软件解锁,执行以下命令, 再移到废纸篓即可 sudo /usr/bin/chflags -R noschg /Applications/CorpLink.app 阅读全文
posted @ 2024-07-28 10:07 wzyy 阅读(3079) 评论(0) 推荐(0)
  2023年4月12日
摘要: 理解指针 指针类型和普通类型区别 package main import ( "fmt" ) type User struct { Id int64 Name string } func (user *User) getUserInfo() string { return fmt.Sprintf(" 阅读全文
posted @ 2023-04-12 11:33 wzyy 阅读(46) 评论(0) 推荐(0)
  2023年1月31日
摘要: 一、Yarn基本架构 YARN主要由ResourceManager、NodeManager、ApplicationMaster和Container组成,之间通过RPC通讯 1、ResourceManager:是一个全局的资源管理器,负责整个系统的资源管理和分配。它主要由两个组件构成:调度器(Sche 阅读全文
posted @ 2023-01-31 15:42 wzyy 阅读(337) 评论(0) 推荐(0)
  2022年11月4日
摘要: 一、架构设计 Driver根据用户代码构建计算流图,拆解出分布式任务并分发到 Executors 中去;每个Executors收到任务,然后处理这个 RDD 的一个数据分片子集 DAGScheduler根据用户代码构建 DAG;以 Shuffle 为边界切割 Stages;基于 Stages 创建 阅读全文
posted @ 2022-11-04 15:38 wzyy 阅读(264) 评论(0) 推荐(1)
  2022年10月11日
摘要: 个人理解,欢迎指正 数据库 引擎 写数据 读数据 补充 MySql InnoDB:支持事务,高速读写性能一般 Myisam:不支持事务,高速读写性能好 以InnoDB更新一条记录为例 1、B+Tree搜索找到这行记录,如果数据页在内存直接返回给【执行器】,否则从磁盘读入内存再返回 2、【执行器】更新 阅读全文
posted @ 2022-10-11 17:22 wzyy 阅读(352) 评论(0) 推荐(0)
  2022年9月28日
摘要: 简单来说就是利用hash算法计算出hash位,如果找到说明【可能存在】,因为别的值也可能算出同一个hash位,如果找不到说明【一定不存在】 https://www.cnblogs.com/xiaoniuhululu/p/16736861.html https://zhuanlan.zhihu.com 阅读全文
posted @ 2022-09-28 17:09 wzyy 阅读(27) 评论(0) 推荐(0)
  2022年8月16日
摘要: 一、功能简介 Atlas 是一组可扩展的核心基础治理服务,使企业能够高效地满足其在 Hadoop 中的合规性要求,并允许与整个企业数据生态系统集成。Apache Atlas 为组织提供开放的元数据管理和治理功能,以构建其数据资产的目录,对这些资产进行分类和治理,并为数据科学家、分析师和数据治理团队提 阅读全文
posted @ 2022-08-16 16:51 wzyy 阅读(2011) 评论(0) 推荐(1)
1 2 3 4 5 ··· 16 下一页