摘要: 1. map和reduce端缓冲区大小 在Spark任务运行过程中,如果shuffle的map端处理的数据量比较大,但是map端缓冲的大小是固定的,可能会出现map端缓冲数据频繁spill溢写到磁盘文件中的情况,使得性能非常低下,通过调节map端缓冲的大小,可以避免频繁的磁盘IO操作,进而提升Spa 阅读全文
posted @ 2025-07-01 16:30 zz_bigdata 阅读(17) 评论(0) 推荐(0)
摘要: 关键点提前:先看下面再回头看这里 为什么增大-Ddfs.namenode.list.parallelism这个参数反而能减轻NameNode压力? 答:通常增大并发参数会增加系统负载,但这里的情况特殊。我理解这是因为当小文件极多时,如果不提高并行度,客户端获取文件列表的操作会排队等待,反而延长了Na 阅读全文
posted @ 2025-06-16 15:55 zz_bigdata 阅读(106) 评论(0) 推荐(0)
摘要: 背景 :在后装kafka的选择hdfs两个盘的路径作为kafka公用盘,安装失败之后hdfs的这个两个盘路径在namenode原生界面显示报错,经过一系列操作,修改了这两个路径下的version文件,就是在/srv/Bigdata/hadoop/data09/dn/current/version修改 阅读全文
posted @ 2025-06-13 15:28 zz_bigdata 阅读(84) 评论(0) 推荐(0)
摘要: 核心优化思路 减少数据量: 尽早过滤掉不需要的数据,减少参与后续计算、Shuffle 和落盘的数据量。 减少 Shuffle: Shuffle(数据跨节点移动)是 Spark 中最昂贵、最容易成为瓶颈的操作。应尽量避免不必要的 Shuffle,或优化 Shuffle 过程。 并行度优化: 确保任务能 阅读全文
posted @ 2025-06-04 16:02 zz_bigdata 阅读(436) 评论(0) 推荐(0)
摘要: 通过hadoop官网提供的namenodeHA有两种,分别是QJM(Quorum Journal Manager)和NFS(Network File System) 官方参考网址: https://hadoop.apache.org/docs/r3.4.1/hadoop-project-dist/h 阅读全文
posted @ 2025-06-03 17:07 zz_bigdata 阅读(87) 评论(0) 推荐(0)
摘要: 一、数学函数 函数 类型 说明 示例 结果 round(double a) UDF 四舍五入取整 SELECT round(3.14159); 3 round(double a, int d) UDF 保留d位小数 SELECT round(3.14159, 2); 3.14 floor(doubl 阅读全文
posted @ 2025-05-30 11:53 zz_bigdata 阅读(63) 评论(0) 推荐(0)
摘要: Hadoop的分布式文件系统 hadoop的三大核心子项目(HDFS,YARN,MapReduce)之一,用来解决海量数据存储问题 优点: 海量数据存储,典型文件大小GB~TB,百万以上文件数量,PB以上数据规模(文件切分分散存储,128M) 高容错(多副本策略),高可用(HA,安全模式),高可扩展 阅读全文
posted @ 2025-05-29 14:49 zz_bigdata 阅读(27) 评论(0) 推荐(0)