上一页 1 2 3 4 5 6 ··· 24 下一页
摘要: 知识点: 基础行动算子:count、collect、first、take、foreach 聚合行动算子:reduce、fold、aggregate 持久化行动算子:saveAsTextFile、saveAsSequenceFile 聚合算子对比练习: rdd = spark.sparkContext 阅读全文
posted @ 2026-01-24 09:50 再报错就堵桥0 阅读(3) 评论(0) 推荐(0)
摘要: 知识点: 单值转换算子:map、filter、flatMap、distinct 双值转换算子:union、intersection、subtract、zip 算子执行逻辑:窄依赖(Narrow Dependency)与宽依赖(Wide Dependency)初步 练习: 实现需求:从数字 RDD 中 阅读全文
posted @ 2026-01-18 00:29 再报错就堵桥0 阅读(2) 评论(0) 推荐(0)
摘要: 知识点: RDD 定义:弹性分布式数据集,不可变、分区存储、惰性求值 RDD 三大特性:分区、依赖、计算函数 RDD 的创建方式:从集合、本地文件、HDFS 文件创建 三种创建 RDD 的代码实现: 1. 从集合创建 rdd1 = spark.sparkContext.parallelize([1, 阅读全文
posted @ 2026-01-18 00:29 再报错就堵桥0 阅读(3) 评论(0) 推荐(0)
摘要: 知识点: Spark生态体系总览:核心组件(Spark Core、Streaming、MLlib、GraphX)与 Python 的交互逻辑 环境依赖关系:JDK、Hadoop、Spark 的版本匹配原则 本地模式部署:无需集群,快速验证环境 练习: 安装JDK8并配置JAVA_HOME,验证:ja 阅读全文
posted @ 2026-01-18 00:28 再报错就堵桥0 阅读(6) 评论(0) 推荐(0)
摘要: 知识点: 核心数据结构:列表、元组、字典、集合(适配 RDD 元素操作) 高阶函数:lambda、map、filter、reduce(Spark RDD 算子的 Python 基础) 迭代器与生成器:减少内存占用,适配大数据处理场景 练习: 用 Python 原生高阶函数实现词频统计,对比 Spar 阅读全文
posted @ 2026-01-18 00:28 再报错就堵桥0 阅读(2) 评论(0) 推荐(0)
摘要: 所用时间:90分钟 代码量(行):115 了解到的知识点: VMware虚拟机网络连接问题 今天做实验时一向没有问题的linux虚拟机却连接不上了,ping连通性不可达,重启网络服务也失败了 Job for network.service failed because the control pro 阅读全文
posted @ 2025-12-19 15:34 再报错就堵桥0 阅读(3) 评论(0) 推荐(0)
摘要: 所用时间:180分钟 代码量(行):204 了解到的知识点: 1.使用trae开发项目感受 这几周我完成了使用trae开发项目的作业 回顾整个开发过程,Trae最核心的价值在于“让初学者聚焦学习本质”。它没有替代我的思考,而是帮我解决了繁琐的配置、重复的编码和复杂的调试问题,让我能将精力放在需求分析 阅读全文
posted @ 2025-12-19 15:33 再报错就堵桥0 阅读(5) 评论(0) 推荐(0)
摘要: 所用时间:315分钟 代码量(行):299 了解到的知识点: 大数据在实际的应用 1. 企业核心业务系统 金融行业(银行、证券、保险)用Oracle、DB2等大型数据库存储账户交易、客户征信、保单合同等核心数据,保障每秒数万笔交易的ACID特性与数据一致性;零售、制造企业则基于SQL Server等 阅读全文
posted @ 2025-12-19 15:32 再报错就堵桥0 阅读(4) 评论(0) 推荐(0)
摘要: 所用时间:180分钟 代码量(行):0 了解到的知识点: 阅读全文
posted @ 2025-12-05 14:11 再报错就堵桥0 阅读(3) 评论(0) 推荐(0)
摘要: 所用时间:315分钟 代码量(行):322 了解到的知识点: 阅读全文
posted @ 2025-12-05 14:11 再报错就堵桥0 阅读(5) 评论(0) 推荐(0)
上一页 1 2 3 4 5 6 ··· 24 下一页