会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
业余砖家
没有比人更高的山,没有比脚更长的路。
新随笔
订阅
管理
上一页
1
···
4
5
6
7
8
9
10
11
12
···
44
下一页
2025年4月11日
Spark最常用的调优参数
摘要: 如何设置Spark资源并行度? Spark 资源并行度由Executor数量和Executor CPU核数共同决定,任务可并行执行的最大Task数量为Executor数量 * Executor CPU核数。 Executor数量 参数:spark.executor.instances。 参数说明:该
阅读全文
posted @ 2025-04-11 22:16 业余砖家
阅读(376)
评论(0)
推荐(0)
2025年3月28日
IDEA中如何创建scala的对象
摘要: 1、创建项目 打开Intellij IDEA,点击“Create New Project”。 选择“Java”作为Language,选择“Maven”作为Build System,选择JDK版本; 输入GroupId的名称,一般是com.xxx; 设置完成后点击“Create”。 2、配置Maven
阅读全文
posted @ 2025-03-28 13:19 业余砖家
阅读(508)
评论(0)
推荐(0)
2025年3月27日
Spark常见面试题
摘要: 一、Spark核心概念与机制 1. Spark架构与执行流程 问题1:解释Spark Driver、Executor、Cluster Manager的职责与协作流程,如何动态调整Executor资源? 答案: 职责: Driver:负责解析用户程序,生成DAG执行计划,调度任
阅读全文
posted @ 2025-03-27 11:56 业余砖家
阅读(446)
评论(0)
推荐(0)
国内大厂实时计算技术栈及经典案例
摘要: 一、字节跳动 & 抖音 技术组合 核心组件:Flink + Kafka + HBase 辅助工具:Redis(实时缓存)、ClickHouse(实时分析) 经典案例 抖音实时推荐系统: 使用 Flink 处理用户行为数据流,结合 Kafka 实现高吞吐数据传输,实时计算用户
阅读全文
posted @ 2025-03-27 10:36 业余砖家
阅读(450)
评论(0)
推荐(0)
2025年3月26日
DataX的常见面试题
摘要: 一、基础概念与原理 1. DataX的核心设计目标是什么?其与Sqoop、Kettle等工具的差异点是什么? 核心设计目标: 异构数据源支持:实现不同类型数据源(如关系型数据库、NoSQL、文件系统)之间的高效数据同步。 高吞吐与低延迟:通过多线程、分片机制提升数据迁移效率。
阅读全文
posted @ 2025-03-26 11:49 业余砖家
阅读(385)
评论(0)
推荐(0)
2025年3月25日
Spark AQE(自适应查询执行)核心使用场景与示例
摘要: 一. AQE是什么? 1、 产生背景 Spark 2.x 在遇到有数据倾斜的任务时,需要人为地去优化任务,比较费时费力;如果任务在Reduce阶段,Reduce Task 数据分布参差不齐,会造成各个excutor节点资源利用率不均衡,影响任务的执行效率;Spark 3新特性AQE极大地优化了以上任
阅读全文
posted @ 2025-03-25 11:18 业余砖家
阅读(651)
评论(0)
推荐(0)
Spark OOM问题避免策略与示例说明
摘要: 一、资源调优 增加Executor内存通过调整Executor内存参数,确保任务有足够资源处理数据: spark-submit --executor-memory 8G --driver-memory 2G ... # 示例命令 场景示例:处理10TB级日志时,将executor-me
阅读全文
posted @ 2025-03-25 10:38 业余砖家
阅读(117)
评论(0)
推荐(0)
滴滴数据仓库工程师面试题
摘要: 一、数据仓库基础与建模 数仓分层设计 请描述滴滴数仓分层架构及各层核心作用(如ODS、DWD、DWS、ADS)。 1. ODS(Operational Data Store)层:原始数据层数据内容:直接从业务系统抽取的原始数据,包括订单流水、用户行为日志、司机接单记录、GPS轨迹等
阅读全文
posted @ 2025-03-25 00:57 业余砖家
阅读(542)
评论(0)
推荐(0)
2025年3月24日
Spark相关面试题
摘要: 一、Spark核心概念 1、RDD的五大特性是什么?如何理解弹性分布式数据集? RDD的五大特性包括:分区列表(Partitions)、依赖关系(Dependencies)、计算函数(Compute Function)、分区器(Partitioner)和优先位置(Preferred Locati
阅读全文
posted @ 2025-03-24 21:18 业余砖家
阅读(241)
评论(0)
推荐(0)
Spark 组件在 Java 大数据开发中的常见报错及解决方案
摘要: 以下是几个 及解决方案,结合具体场景说明: 案例1:Guava 依赖冲突导致 IllegalAccessError 报错信息:java.lang.IllegalAccessError: tried to access method com.google.common.base.Stopwatc
阅读全文
posted @ 2025-03-24 15:43 业余砖家
阅读(191)
评论(0)
推荐(0)
上一页
1
···
4
5
6
7
8
9
10
11
12
···
44
下一页
公告