2305-3王皓扬 - 博客园

第25天：Pregel API——自定义图迭代算法

摘要：内容要点： Pregel模型：谷歌提出的“顶点为中心”的图计算模型（超级步、消息传递、顶点更新）。 GraphX Pregel API：graph.pregel函数，需提供初始化消息、顶点程序、发送消息函数、合并消息函数。经典案例：使用Pregel API实现单源最短路径（SSSP）算法，从源点开阅读全文

posted @ 2026-02-28 22:54 2305-3王皓扬阅读(8) 评论(0) 推荐(0)

第24天：图算法（二）——连通分量与三角形计数

摘要：内容要点：连通分量：找出图中所有连通子图，常用于社群发现初步划分。调用graph.connectedComponents()。三角形计数：计算每个顶点参与了多少个三角形，衡量图的聚集系数（社交网络中表示好友间相互认识的程度）。调用graph.triangleCount()。实战：在社交网络数据阅读全文

posted @ 2026-02-28 22:54 2305-3王皓扬阅读(6) 评论(0) 推荐(0)

第23天：图算法（一）——PageRank与社交网络分析

摘要：内容要点： PageRank原理：通过边传播重要性，迭代计算节点权重。 GraphX实现：调用Graph.pageRank(0.0001).vertices获取收敛后的排名。实战：在维基百科链接网或论文引用网中计算重要节点。 Personalized PageRank：个性化推荐，基于指定源节点。阅读全文

posted @ 2026-02-28 22:54 2305-3王皓扬阅读(11) 评论(0) 推荐(0)

第22天：GraphX核心抽象——属性图的构建与操作

摘要：构建图：通过顶点RDD（(VertexId, VD)）和边RDD（Edge[ED]）构建。使用GraphLoader.edgeListFile从边列表文件加载。基础操作：属性操作：mapVertices、mapEdges。结构操作：reverse（反转边方向）、subgraph（取子图，如阅读全文

posted @ 2026-02-28 22:53 2305-3王皓扬阅读(6) 评论(0) 推荐(0)

第21天：图计算入门——GraphX与图论基础

摘要：内容要点：图论基础：顶点（Vertex）、边（Edge）、有向图/无向图、度数。图计算应用场景：社交网络分析、推荐、路径规划、知识图谱。 GraphX核心：基于RDD的图计算引擎，核心抽象是Graph[VD, ED]（顶点RDD+边RDD）。阅读全文

posted @ 2026-02-28 22:53 2305-3王皓扬阅读(10) 评论(0) 推荐(0)

第20天：模型调优与Pipeline——交叉验证与参数网格搜索

摘要：内容要点： Pipeline：将特征工程步骤和训练步骤串联起来，避免数据泄露。交叉验证：CrossValidator将数据分割为K折，轮流训练验证。参数网格搜索：ParamGridBuilder构建参数组合（如树的深度、迭代次数）。最佳模型选择：自动选择在验证集上表现最好的模型并保存（save 阅读全文

posted @ 2026-02-28 22:53 2305-3王皓扬阅读(8) 评论(0) 推荐(0)

第19天：协同过滤与推荐系统——ALS算法

摘要：内容要点：推荐系统原理：基于用户（User-CF）、基于物品（Item-CF）、隐语义模型。 ALS（交替最小二乘法）：矩阵分解思想、处理显式/隐式反馈。 MLlib ALS实战：使用MovieLens数据集训练推荐模型，为指定用户生成Top-N推荐。冷启动问题：如何处理新用户/新物品。阅读全文

posted @ 2026-02-28 22:53 2305-3王皓扬阅读(10) 评论(0) 推荐(0)

第18天：聚类算法——KMeans与高斯混合模型

摘要：内容要点：聚类问题：无监督学习，发现数据内在分组。 KMeans：原理（迭代质心）、肘部法则选择K值、KMeans训练与预测。高斯混合模型（GMM）：基于概率分布的软聚类、适用场景。实战：用户行为分群（RFM模型聚类）。阅读全文

posted @ 2026-02-28 22:53 2305-3王皓扬阅读(11) 评论(0) 推荐(0)

第17天：分类算法——逻辑回归与随机森林分类

摘要：内容要点：分类问题：预测离散类别（如垃圾邮件识别、用户流失预测）。逻辑回归：二分类原理、LogisticRegression、概率输出。随机森林分类：集成学习思想、RandomForestClassifier、特征重要性评估。评估指标：准确率、精确率、召回率、F1-score、AUC-ROC 阅读全文

posted @ 2026-02-28 22:53 2305-3王皓扬阅读(9) 评论(0) 推荐(0)

第16天：回归算法——线性回归与决策树回归

摘要：内容要点：回归问题：预测连续值（如房价、销量）。线性回归：原理（最小二乘法）、MLlib中的LinearRegression参数设置、模型评估指标（MSE、RMSE、R²）。决策树回归：原理（CART算法）、DecisionTreeRegressor使用、与线性回归的对比。实战：使用内置数据阅读全文

posted @ 2026-02-28 22:53 2305-3王皓扬阅读(10) 评论(0) 推荐(0)

2026年2月28日

公告