上一页 1 ··· 5 6 7 8 9 10 11 12 13 ··· 39 下一页
摘要: 学习Koalas库实现pandas API到Spark的平滑迁移,重构原有数据分析代码。验证百万级数据处理时间从45分钟降至8分钟。 阅读全文
posted @ 2025-02-23 16:25 皮卡丘和杰尼龟 阅读(8) 评论(0) 推荐(0)
摘要: 使用GraphFrames分析社交网络关系,计算PageRank和连通组件。调试过程中优化三角计数算法,减少shuffle数据量。 阅读全文
posted @ 2025-02-23 16:24 皮卡丘和杰尼龟 阅读(4) 评论(0) 推荐(0)
摘要: 研究Delta Lake构建数据湖,实现ACID事务和版本回滚。对比传统Hive数仓,验证SCD2型渐变维处理效率提升65%。回顾前10天的学习记录 阅读全文
posted @ 2025-02-23 16:24 皮卡丘和杰尼龟 阅读(5) 评论(0) 推荐(0)
摘要: 学习Structured Streaming处理实时数据,模拟Kafka消息流进行词频统计。掌握watermark机制处理延迟数据,完成窗口操作练习。 阅读全文
posted @ 2025-02-23 16:23 皮卡丘和杰尼龟 阅读(7) 评论(0) 推荐(0)
摘要: 继续完成搭建电影推荐系统。使用交替最小二乘算法(ALS),在Movielens数据集上实现协同过滤,RMSE指标达0.87。 阅读全文
posted @ 2025-02-23 16:22 皮卡丘和杰尼龟 阅读(7) 评论(0) 推荐(0)
摘要: 综合项目:搭建电影推荐系统。使用交替最小二乘算法(ALS),在Movielens数据集上实现协同过滤,RMSE指标达0.87。 阅读全文
posted @ 2025-02-23 16:21 皮卡丘和杰尼龟 阅读(5) 评论(0) 推荐(0)
摘要: 优化Spark应用性能,调整executor内存和并行度参数。通过UI监控发现stage执行时间缩短40%,学习宽窄依赖优化策略。 阅读全文
posted @ 2025-02-23 16:21 皮卡丘和杰尼龟 阅读(6) 评论(0) 推荐(0)
摘要: 学习Spark MLlib管道机制,构建线性回归模型预测房价。特征工程阶段发现数据缺失问题,采用均值填充法处理。 阅读全文
posted @ 2025-02-23 16:20 皮卡丘和杰尼龟 阅读(6) 评论(0) 推荐(0)
摘要: 掌握Spark SQL的DataFrame API,对比pandas操作差异。使用spark.read.json加载电商用户行为数据,完成基础统计指标计算。 阅读全文
posted @ 2025-02-23 16:20 皮卡丘和杰尼龟 阅读(7) 评论(0) 推荐(0)
摘要: 学习RDD弹性分布式数据集原理,完成parallelize()方法创建RDD练习。通过WordCount案例理解map/reduce执行流程,遇到shuffle分区问题。 阅读全文
posted @ 2025-02-23 16:20 皮卡丘和杰尼龟 阅读(8) 评论(0) 推荐(0)
上一页 1 ··· 5 6 7 8 9 10 11 12 13 ··· 39 下一页