会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
scales123
博客园
首页
新随笔
联系
订阅
管理
2026年2月8日
Spark面试题笔记
摘要: Q1.Spark 是什么?和 Hadoop MapReduce 相比,核心优势是什么? Spark 是一款基于内存计算的分布式大数据处理框架,支持批处理、流处理、交互式查询、机器学习等多场景,核心是 RDD 弹性分布式数据集,底层基于 Scala 开发,提供 Java/Scala/Python 等多
阅读全文
posted @ 2026-02-08 22:16 scales123
阅读(6)
评论(0)
推荐(0)
2026年1月29日
理解Spark RDD
摘要: 1. 概念与属性 Q1: 什么是 RDD?它有哪些核心属性? 回答思路: 定义: RDD 是 Spark 的核心抽象,全称是弹性分布式数据集。它是只读的、分区的记录集合,能够自动从节点故障中恢复(容错)。 五大属性(硬核考点): 分区列表: 数据集被切分为多个分区,分布在集群的不同节点上。 计算函数
阅读全文
posted @ 2026-01-29 22:49 scales123
阅读(8)
评论(0)
推荐(0)
Spark On Yarn架构
摘要: client模式 特征:driver在client上,AM只负责申请资源 提交任务:用户在cilent端通过spark-submit提交job 启动driver:driver进程在提交的本地机器上启动 申请AM:driver向RM请求启动AM 启动AM:RM分配一个container在某个NM上启动
阅读全文
posted @ 2026-01-29 22:26 scales123
阅读(4)
评论(0)
推荐(0)
2026年1月27日
windows安装nvm/node/npm/pnpm
摘要: 目录 0 前言 1 安装nvm 2 安装node 3 安装pnpm 4 在VSCODE中使用 0 前言 nvm、Node.js、npm、pnpm 核心属性总结表 工具 核心定位 本质/类型 核心作用 安装/依赖关系 常用核心命令 核心优势 适用场景 nvm(Windows为nvm-windows)
阅读全文
posted @ 2026-01-27 21:58 scales123
阅读(23)
评论(0)
推荐(0)
2026年1月25日
ollama本地部署大模型
摘要: 前置:需安装docker 1.拉取ollama镜像 docker pull ollama/ollama 如果拉取不成功可通过以下方式解决: 修改docker engine配置:https://www.cnblogs.com/scales123/p/19526378 其他方式下载镜像:https://
阅读全文
posted @ 2026-01-25 23:00 scales123
阅读(37)
评论(0)
推荐(0)
2026年1月24日
解决docker拉取镜像超时
摘要: docker-engine里配置如下: { "builder": { "gc": { "defaultKeepStorage": "20GB", "enabled": true } }, "experimental": false, "registry-mirrors": [ "https://9c
阅读全文
posted @ 2026-01-24 14:24 scales123
阅读(16)
评论(0)
推荐(0)
2026年1月11日
Spark SQL Join优化梳理
摘要: 在 Spark SQL 日常开发中,表关联(Join)是核心操作,也是性能调优的重灾区。不同关联场景(大表+小表、大表+大表)的优化思路差异显著,本文将分场景拆解最优优化方案,结合实操案例说明原理与落地方式。 一、大表关联小表优化(分2个子场景) 大表关联小表的核心优化目标是 减少/避免 Shuff
阅读全文
posted @ 2026-01-11 21:13 scales123
阅读(24)
评论(0)
推荐(0)
2026年1月8日
Spark调优有哪些参数?
摘要: Spark 参数调优的核心是先定位性能瓶颈(如资源不足、Shuffle 慢、GC 高、IO 耗时久),再针对性调参。以下按「资源分配、Shuffle 优化、内存管理、执行效率、数据读取」五大核心维度,梳理高频调优参数及对应场景: 一、资源分配类(解决“资源不够/资源浪费”) 核心是为 Executo
阅读全文
posted @ 2026-01-08 20:13 scales123
阅读(27)
评论(0)
推荐(0)
2026年1月4日
Spark动态优化机制:AQE与DPP
摘要: 1 AQE 1.1 AQE诞生的背景 Spark 2.x 在遇到有数据倾斜的任务时,需要人为地去优化任务,比较费时费力;如果任务在Reduce阶段,Reduce Task 数据分布参差不齐,会造成各个excutor节点资源利用率不均衡,影响任务的执行效率;Spark 3新特性AQE极大地优化了以上任
阅读全文
posted @ 2026-01-04 22:27 scales123
阅读(61)
评论(0)
推荐(0)
2025年12月11日
Windows11制作docker linux-arm64镜像
摘要: 通过win11构建支持linux-arm/x86的docker镜像 1 前置条件 1.1 启用wsl # 启用 WSL 功能 dism.exe /online /enable-feature /featurename:Microsoft-Windows-Subsystem-Linux /all /n
阅读全文
posted @ 2025-12-11 23:17 scales123
阅读(62)
评论(0)
推荐(0)
下一页
公告