zz_bigdata - 博客园

2025年7月1日

摘要： 1. map和reduce端缓冲区大小在Spark任务运行过程中，如果shuffle的map端处理的数据量比较大，但是map端缓冲的大小是固定的，可能会出现map端缓冲数据频繁spill溢写到磁盘文件中的情况，使得性能非常低下，通过调节map端缓冲的大小，可以避免频繁的磁盘IO操作，进而提升Spa 阅读全文

posted @ 2025-07-01 16:30 zz_bigdata 阅读(22) 评论(0) 推荐(0)

2025年6月16日

HDFS中distcp与cp的区别

摘要：关键点提前：先看下面再回头看这里为什么增大-Ddfs.namenode.list.parallelism这个参数反而能减轻NameNode压力？答：通常增大并发参数会增加系统负载，但这里的情况特殊。我理解这是因为当小文件极多时，如果不提高并行度，客户端获取文件列表的操作会排队等待，反而延长了Na 阅读全文

posted @ 2025-06-16 15:55 zz_bigdata 阅读(134) 评论(0) 推荐(0)

2025年6月13日

hdfs丢数据块问题探讨

摘要：背景：在后装kafka的选择hdfs两个盘的路径作为kafka公用盘，安装失败之后hdfs的这个两个盘路径在namenode原生界面显示报错，经过一系列操作，修改了这两个路径下的version文件，就是在/srv/Bigdata/hadoop/data09/dn/current/version修改阅读全文

posted @ 2025-06-13 15:28 zz_bigdata 阅读(123) 评论(0) 推荐(0)

2025年6月4日

spark-sql优化

摘要：核心优化思路减少数据量：尽早过滤掉不需要的数据，减少参与后续计算、Shuffle 和落盘的数据量。减少 Shuffle： Shuffle（数据跨节点移动）是 Spark 中最昂贵、最容易成为瓶颈的操作。应尽量避免不必要的 Shuffle，或优化 Shuffle 过程。并行度优化：确保任务能阅读全文

posted @ 2025-06-04 16:02 zz_bigdata 阅读(568) 评论(0) 推荐(0)

2025年6月3日

NameNode高可用

摘要：通过hadoop官网提供的namenodeHA有两种，分别是QJM(Quorum Journal Manager)和NFS(Network File System) 官方参考网址: https://hadoop.apache.org/docs/r3.4.1/hadoop-project-dist/h 阅读全文

posted @ 2025-06-03 17:07 zz_bigdata 阅读(117) 评论(0) 推荐(0)

2025年5月30日

hql内置函数详解与使用

摘要：一、数学函数函数类型说明示例结果 round(double a) UDF 四舍五入取整 SELECT round(3.14159); 3 round(double a, int d) UDF 保留d位小数 SELECT round(3.14159, 2); 3.14 floor(doubl 阅读全文

posted @ 2025-05-30 11:53 zz_bigdata 阅读(107) 评论(0) 推荐(0)

2025年5月29日

HDFS概述

摘要： Hadoop的分布式文件系统 hadoop的三大核心子项目（HDFS,YARN,MapReduce）之一，用来解决海量数据存储问题优点：海量数据存储，典型文件大小GB~TB，百万以上文件数量，PB以上数据规模（文件切分分散存储，128M）高容错（多副本策略），高可用（HA，安全模式），高可扩展阅读全文

posted @ 2025-05-29 14:49 zz_bigdata 阅读(36) 评论(0) 推荐(0)

cwz02

公告