摘要: SQL的语法顺序 语法顺序,即书写SQL脚本时需要遵循的顺序 SELECT:指定要查询的字段或列 DISTINCT:对查询结果进行去重处理(如果需要) FROM:指定要查询的数据源表 JOIN 和 ON:对FROM子句中的表进行连接操作,并应用ON子句中的连接条件。 WHERE:设置筛选条件,过滤掉 阅读全文
posted @ 2026-02-08 22:31 scales123 阅读(8) 评论(0) 推荐(0)
摘要: Q1.Spark 是什么?和 Hadoop MapReduce 相比,核心优势是什么? Spark 是一款基于内存计算的分布式大数据处理框架,支持批处理、流处理、交互式查询、机器学习等多场景,核心是 RDD 弹性分布式数据集,底层基于 Scala 开发,提供 Java/Scala/Python 等多 阅读全文
posted @ 2026-02-08 22:16 scales123 阅读(6) 评论(0) 推荐(0)
摘要: 1. 概念与属性 Q1: 什么是 RDD?它有哪些核心属性? 回答思路: 定义: RDD 是 Spark 的核心抽象,全称是弹性分布式数据集。它是只读的、分区的记录集合,能够自动从节点故障中恢复(容错)。 五大属性(硬核考点): 分区列表: 数据集被切分为多个分区,分布在集群的不同节点上。 计算函数 阅读全文
posted @ 2026-01-29 22:49 scales123 阅读(8) 评论(0) 推荐(0)
摘要: client模式 特征:driver在client上,AM只负责申请资源 提交任务:用户在cilent端通过spark-submit提交job 启动driver:driver进程在提交的本地机器上启动 申请AM:driver向RM请求启动AM 启动AM:RM分配一个container在某个NM上启动 阅读全文
posted @ 2026-01-29 22:26 scales123 阅读(4) 评论(0) 推荐(0)
摘要: 目录 0 前言 1 安装nvm 2 安装node 3 安装pnpm 4 在VSCODE中使用 0 前言 nvm、Node.js、npm、pnpm 核心属性总结表 工具 核心定位 本质/类型 核心作用 安装/依赖关系 常用核心命令 核心优势 适用场景 nvm(Windows为nvm-windows) 阅读全文
posted @ 2026-01-27 21:58 scales123 阅读(22) 评论(0) 推荐(0)
摘要: 前置:需安装docker 1.拉取ollama镜像 docker pull ollama/ollama 如果拉取不成功可通过以下方式解决: 修改docker engine配置:https://www.cnblogs.com/scales123/p/19526378 其他方式下载镜像:https:// 阅读全文
posted @ 2026-01-25 23:00 scales123 阅读(36) 评论(0) 推荐(0)
摘要: docker-engine里配置如下: { "builder": { "gc": { "defaultKeepStorage": "20GB", "enabled": true } }, "experimental": false, "registry-mirrors": [ "https://9c 阅读全文
posted @ 2026-01-24 14:24 scales123 阅读(16) 评论(0) 推荐(0)
摘要: 在 Spark SQL 日常开发中,表关联(Join)是核心操作,也是性能调优的重灾区。不同关联场景(大表+小表、大表+大表)的优化思路差异显著,本文将分场景拆解最优优化方案,结合实操案例说明原理与落地方式。 一、大表关联小表优化(分2个子场景) 大表关联小表的核心优化目标是 减少/避免 Shuff 阅读全文
posted @ 2026-01-11 21:13 scales123 阅读(24) 评论(0) 推荐(0)
摘要: Spark 参数调优的核心是先定位性能瓶颈(如资源不足、Shuffle 慢、GC 高、IO 耗时久),再针对性调参。以下按「资源分配、Shuffle 优化、内存管理、执行效率、数据读取」五大核心维度,梳理高频调优参数及对应场景: 一、资源分配类(解决“资源不够/资源浪费”) 核心是为 Executo 阅读全文
posted @ 2026-01-08 20:13 scales123 阅读(27) 评论(0) 推荐(0)
摘要: 1 AQE 1.1 AQE诞生的背景 Spark 2.x 在遇到有数据倾斜的任务时,需要人为地去优化任务,比较费时费力;如果任务在Reduce阶段,Reduce Task 数据分布参差不齐,会造成各个excutor节点资源利用率不均衡,影响任务的执行效率;Spark 3新特性AQE极大地优化了以上任 阅读全文
posted @ 2026-01-04 22:27 scales123 阅读(60) 评论(0) 推荐(0)