• 博客园logo
  • 会员
  • 周边
  • 新闻
  • 博问
  • 闪存
  • 众包
  • 赞助商
  • Chat2DB
    • 搜索
      所有博客
    • 搜索
      当前博客
  • 写随笔 我的博客 短消息 简洁模式
    用户头像
    我的博客 我的园子 账号设置 会员中心 简洁模式 ... 退出登录
    注册 登录
why2005rg
博客园 | 首页 | 新随笔 | 新文章 | 联系 | 订阅 订阅 | 管理

2026年2月28日

第25天:Pregel API——自定义图迭代算法
摘要: 内容要点: Pregel模型:谷歌提出的“顶点为中心”的图计算模型(超级步、消息传递、顶点更新)。 GraphX Pregel API:graph.pregel函数,需提供初始化消息、顶点程序、发送消息函数、合并消息函数。 经典案例:使用Pregel API实现单源最短路径(SSSP)算法,从源点开 阅读全文
posted @ 2026-02-28 22:54 2305-3王皓扬 阅读(1) 评论(0) 推荐(0)
 
第24天:图算法(二)——连通分量与三角形计数
摘要: 内容要点: 连通分量:找出图中所有连通子图,常用于社群发现初步划分。调用graph.connectedComponents()。 三角形计数:计算每个顶点参与了多少个三角形,衡量图的聚集系数(社交网络中表示好友间相互认识的程度)。调用graph.triangleCount()。 实战:在社交网络数据 阅读全文
posted @ 2026-02-28 22:54 2305-3王皓扬 阅读(1) 评论(0) 推荐(0)
 
第23天:图算法(一)——PageRank与社交网络分析
摘要: 内容要点: PageRank原理:通过边传播重要性,迭代计算节点权重。 GraphX实现:调用Graph.pageRank(0.0001).vertices获取收敛后的排名。 实战:在维基百科链接网或论文引用网中计算重要节点。 Personalized PageRank:个性化推荐,基于指定源节点。 阅读全文
posted @ 2026-02-28 22:54 2305-3王皓扬 阅读(2) 评论(0) 推荐(0)
 
第22天:GraphX核心抽象——属性图的构建与操作
摘要: 构建图: 通过顶点RDD((VertexId, VD))和边RDD(Edge[ED])构建。 使用GraphLoader.edgeListFile从边列表文件加载。 基础操作: 属性操作:mapVertices、mapEdges。 结构操作:reverse(反转边方向)、subgraph(取子图,如 阅读全文
posted @ 2026-02-28 22:53 2305-3王皓扬 阅读(1) 评论(0) 推荐(0)
 
第21天:图计算入门——GraphX与图论基础
摘要: 内容要点: 图论基础:顶点(Vertex)、边(Edge)、有向图/无向图、度数。 图计算应用场景:社交网络分析、推荐、路径规划、知识图谱。 GraphX核心:基于RDD的图计算引擎,核心抽象是Graph[VD, ED](顶点RDD+边RDD)。 阅读全文
posted @ 2026-02-28 22:53 2305-3王皓扬 阅读(2) 评论(0) 推荐(0)
 
第20天:模型调优与Pipeline——交叉验证与参数网格搜索
摘要: 内容要点: Pipeline:将特征工程步骤和训练步骤串联起来,避免数据泄露。 交叉验证:CrossValidator将数据分割为K折,轮流训练验证。 参数网格搜索:ParamGridBuilder构建参数组合(如树的深度、迭代次数)。 最佳模型选择:自动选择在验证集上表现最好的模型并保存(save 阅读全文
posted @ 2026-02-28 22:53 2305-3王皓扬 阅读(1) 评论(0) 推荐(0)
 
第19天:协同过滤与推荐系统——ALS算法
摘要: 内容要点: 推荐系统原理:基于用户(User-CF)、基于物品(Item-CF)、隐语义模型。 ALS(交替最小二乘法):矩阵分解思想、处理显式/隐式反馈。 MLlib ALS实战:使用MovieLens数据集训练推荐模型,为指定用户生成Top-N推荐。 冷启动问题:如何处理新用户/新物品。 阅读全文
posted @ 2026-02-28 22:53 2305-3王皓扬 阅读(1) 评论(0) 推荐(0)
 
第18天:聚类算法——KMeans与高斯混合模型
摘要: 内容要点: 聚类问题:无监督学习,发现数据内在分组。 KMeans:原理(迭代质心)、肘部法则选择K值、KMeans训练与预测。 高斯混合模型(GMM):基于概率分布的软聚类、适用场景。 实战:用户行为分群(RFM模型聚类)。 阅读全文
posted @ 2026-02-28 22:53 2305-3王皓扬 阅读(3) 评论(0) 推荐(0)
 
第17天:分类算法——逻辑回归与随机森林分类
摘要: 内容要点: 分类问题:预测离散类别(如垃圾邮件识别、用户流失预测)。 逻辑回归:二分类原理、LogisticRegression、概率输出。 随机森林分类:集成学习思想、RandomForestClassifier、特征重要性评估。 评估指标:准确率、精确率、召回率、F1-score、AUC-ROC 阅读全文
posted @ 2026-02-28 22:53 2305-3王皓扬 阅读(3) 评论(0) 推荐(0)
 
第16天:回归算法——线性回归与决策树回归
摘要: 内容要点: 回归问题:预测连续值(如房价、销量)。 线性回归:原理(最小二乘法)、MLlib中的LinearRegression参数设置、模型评估指标(MSE、RMSE、R²)。 决策树回归:原理(CART算法)、DecisionTreeRegressor使用、与线性回归的对比。 实战:使用内置数据 阅读全文
posted @ 2026-02-28 22:53 2305-3王皓扬 阅读(2) 评论(0) 推荐(0)
 
 
下一页

公告


博客园  ©  2004-2026
浙公网安备 33010602011771号 浙ICP备2021040463号-3