再报错就堵桥0

2026年1月24日

摘要：知识点：基础行动算子：count、collect、first、take、foreach 聚合行动算子：reduce、fold、aggregate 持久化行动算子：saveAsTextFile、saveAsSequenceFile 聚合算子对比练习： rdd = spark.sparkContext 阅读全文

posted @ 2026-01-24 09:50 再报错就堵桥0 阅读(4) 评论(0) 推荐(0)

Spark Core 核心概念：RDD 持久化与缓存

摘要：知识点：持久化原因：避免重复计算，提升性能持久化级别：MEMORY_ONLY、MEMORY_AND_DISK、DISK_ONLY等缓存与检查点：cache() vs checkpoint() 持久化代码实现与性能对比： from pyspark import StorageLevel rdd 阅读全文

posted @ 2026-01-24 09:50 再报错就堵桥0 阅读(3) 评论(0) 推荐(0)

Spark Core 核心概念：键值对 RDD 算子

摘要：知识点：键值对 RDD 的创建：map转换为 (key, value) 格式分区算子：partitionBy、getPartition 聚合算子：reduceByKey、groupByKey、aggregateByKey、sortByKey 练习：对比reduceByKey与groupByKe 阅读全文

posted @ 2026-01-24 09:50 再报错就堵桥0 阅读(4) 评论(0) 推荐(0)

2026年1月18日

Spark Core 核心概念：RDD 转换算子

摘要：知识点：单值转换算子：map、filter、flatMap、distinct 双值转换算子：union、intersection、subtract、zip 算子执行逻辑：窄依赖（Narrow Dependency）与宽依赖（Wide Dependency）初步练习：实现需求：从数字 RDD 中阅读全文

posted @ 2026-01-18 00:29 再报错就堵桥0 阅读(3) 评论(0) 推荐(0)

Spark Core 核心概念：RDD 基础

摘要：知识点： RDD 定义：弹性分布式数据集，不可变、分区存储、惰性求值 RDD 三大特性：分区、依赖、计算函数 RDD 的创建方式：从集合、本地文件、HDFS 文件创建三种创建 RDD 的代码实现： 1. 从集合创建 rdd1 = spark.sparkContext.parallelize([1, 阅读全文

posted @ 2026-01-18 00:29 再报错就堵桥0 阅读(4) 评论(0) 推荐(0)

学习规划与环境搭建

摘要：知识点： Spark生态体系总览：核心组件（Spark Core、Streaming、MLlib、GraphX）与 Python 的交互逻辑环境依赖关系：JDK、Hadoop、Spark 的版本匹配原则本地模式部署：无需集群，快速验证环境练习：安装JDK8并配置JAVA_HOME，验证：ja 阅读全文

posted @ 2026-01-18 00:28 再报错就堵桥0 阅读(7) 评论(0) 推荐(0)

Python 基础强化

摘要：知识点：核心数据结构：列表、元组、字典、集合（适配 RDD 元素操作）高阶函数：lambda、map、filter、reduce（Spark RDD 算子的 Python 基础）迭代器与生成器：减少内存占用，适配大数据处理场景练习：用 Python 原生高阶函数实现词频统计，对比 Spar 阅读全文

posted @ 2026-01-18 00:28 再报错就堵桥0 阅读(3) 评论(0) 推荐(0)

2025年12月19日

第十二周第三天12.3

摘要：所用时间：90分钟代码量（行）：115 了解到的知识点： VMware虚拟机网络连接问题今天做实验时一向没有问题的linux虚拟机却连接不上了，ping连通性不可达，重启网络服务也失败了 Job for network.service failed because the control pro 阅读全文

posted @ 2025-12-19 15:34 再报错就堵桥0 阅读(5) 评论(0) 推荐(0)

第十二周第二天12.2

摘要：所用时间：180分钟代码量（行）：204 了解到的知识点： 1.使用trae开发项目感受这几周我完成了使用trae开发项目的作业回顾整个开发过程，Trae最核心的价值在于“让初学者聚焦学习本质”。它没有替代我的思考，而是帮我解决了繁琐的配置、重复的编码和复杂的调试问题，让我能将精力放在需求分析阅读全文

posted @ 2025-12-19 15:33 再报错就堵桥0 阅读(8) 评论(0) 推荐(0)

第十二周第一天12.1

摘要：所用时间：315分钟代码量（行）：299 了解到的知识点：大数据在实际的应用 1. 企业核心业务系统金融行业（银行、证券、保险）用Oracle、DB2等大型数据库存储账户交易、客户征信、保单合同等核心数据，保障每秒数万笔交易的ACID特性与数据一致性；零售、制造企业则基于SQL Server等阅读全文

posted @ 2025-12-19 15:32 再报错就堵桥0 阅读(5) 评论(0) 推荐(0)

WMKQF

公告