摘要:
学习Koalas库实现pandas API到Spark的平滑迁移,重构原有数据分析代码。验证百万级数据处理时间从45分钟降至8分钟。 阅读全文
posted @ 2025-02-23 16:25
皮卡丘和杰尼龟
阅读(8)
评论(0)
推荐(0)
摘要:
使用GraphFrames分析社交网络关系,计算PageRank和连通组件。调试过程中优化三角计数算法,减少shuffle数据量。 阅读全文
posted @ 2025-02-23 16:24
皮卡丘和杰尼龟
阅读(4)
评论(0)
推荐(0)
摘要:
研究Delta Lake构建数据湖,实现ACID事务和版本回滚。对比传统Hive数仓,验证SCD2型渐变维处理效率提升65%。回顾前10天的学习记录 阅读全文
posted @ 2025-02-23 16:24
皮卡丘和杰尼龟
阅读(5)
评论(0)
推荐(0)
摘要:
学习Structured Streaming处理实时数据,模拟Kafka消息流进行词频统计。掌握watermark机制处理延迟数据,完成窗口操作练习。 阅读全文
posted @ 2025-02-23 16:23
皮卡丘和杰尼龟
阅读(7)
评论(0)
推荐(0)
摘要:
继续完成搭建电影推荐系统。使用交替最小二乘算法(ALS),在Movielens数据集上实现协同过滤,RMSE指标达0.87。 阅读全文
posted @ 2025-02-23 16:22
皮卡丘和杰尼龟
阅读(7)
评论(0)
推荐(0)
摘要:
综合项目:搭建电影推荐系统。使用交替最小二乘算法(ALS),在Movielens数据集上实现协同过滤,RMSE指标达0.87。 阅读全文
posted @ 2025-02-23 16:21
皮卡丘和杰尼龟
阅读(5)
评论(0)
推荐(0)
摘要:
优化Spark应用性能,调整executor内存和并行度参数。通过UI监控发现stage执行时间缩短40%,学习宽窄依赖优化策略。 阅读全文
posted @ 2025-02-23 16:21
皮卡丘和杰尼龟
阅读(6)
评论(0)
推荐(0)
摘要:
学习Spark MLlib管道机制,构建线性回归模型预测房价。特征工程阶段发现数据缺失问题,采用均值填充法处理。 阅读全文
posted @ 2025-02-23 16:20
皮卡丘和杰尼龟
阅读(6)
评论(0)
推荐(0)
摘要:
掌握Spark SQL的DataFrame API,对比pandas操作差异。使用spark.read.json加载电商用户行为数据,完成基础统计指标计算。 阅读全文
posted @ 2025-02-23 16:20
皮卡丘和杰尼龟
阅读(7)
评论(0)
推荐(0)
摘要:
学习RDD弹性分布式数据集原理,完成parallelize()方法创建RDD练习。通过WordCount案例理解map/reduce执行流程,遇到shuffle分区问题。 阅读全文
posted @ 2025-02-23 16:20
皮卡丘和杰尼龟
阅读(8)
评论(0)
推荐(0)
浙公网安备 33010602011771号