• 博客园logo
  • 会员
  • 周边
  • 新闻
  • 博问
  • 闪存
  • 众包
  • 赞助商
  • Chat2DB
    • 搜索
      所有博客
    • 搜索
      当前博客
  • 写随笔 我的博客 短消息 简洁模式
    用户头像
    我的博客 我的园子 账号设置 会员中心 简洁模式 ... 退出登录
    注册 登录
-little-boy
博客园 | 首页 | 新随笔 | 新文章 | 联系 | 订阅 订阅 | 管理

2026年2月15日

0208GraphX实操——PageRank算法实现
摘要: 今天重点实操了GraphX中的经典图算法——PageRank,PageRank用于计算图中每个顶点的重要性,广泛应用于搜索引擎排序、社交网络影响力分析等场景。 PageRank原理:核心思想是“一个顶点的重要性取决于指向它的顶点的重要性,以及指向它的顶点的出度”。简单来说,一个顶点被越多重要的顶点指 阅读全文
posted @ 2026-02-15 22:54 小火柴(^_^) 阅读(1) 评论(0) 推荐(0)
 
0209Spark生态综合实操——完整数据处理流程
摘要: 今天进行了Spark生态的综合实操,整合前面学习的Spark Core、Spark SQL、Spark Streaming、MLlib的知识,完成一个完整的大数据处理流程,模拟生产环境中的实际场景。 实操场景:实时接收用户行为日志(通过Kafka发送),使用Spark Streaming读取日志数据 阅读全文
posted @ 2026-02-15 22:54 小火柴(^_^) 阅读(1) 评论(0) 推荐(0)
 
0131GraphX基础认知与核心概念
摘要: 今天开始学习Spark生态的第五个核心组件——GraphX,重点理解它的定位、核心概念和适用场景,了解图计算的基本思想。 GraphX是Spark的图计算模块,用于处理大规模的图数据(如社交网络、知识图谱、交通网络等),提供了丰富的图操作和图算法,基于Spark的分布式计算能力,能高效处理海量图数据 阅读全文
posted @ 2026-02-15 22:53 小火柴(^_^) 阅读(1) 评论(0) 推荐(0)
 
0207GraphX实操——图的创建与基本操作
摘要: 今天动手实操了GraphX的基本用法,重点学习图的创建和常用图操作,熟悉图计算的基本流程。 图的创建方式:主要有两种,一是从VertexRDD和EdgeRDD创建,先创建顶点数据集(包含顶点ID和顶点属性)和边数据集(包含源顶点ID、目标顶点ID和边属性),然后通过Graph(vertices, e 阅读全文
posted @ 2026-02-15 22:53 小火柴(^_^) 阅读(1) 评论(0) 推荐(0)
 
0130MLlib实操——聚类算法(K-Means)
摘要: 今天实操了MLlib中的聚类算法——K-Means,聚类是无监督学习的核心算法,不需要标签数据,用于将数据划分为多个簇,使簇内数据相似度高、簇间数据相似度低。 K-Means原理:K-Means算法首先随机选择K个初始聚类中心,然后迭代计算每个样本到各个聚类中心的距离,将样本分配到距离最近的簇,再更 阅读全文
posted @ 2026-02-15 22:52 小火柴(^_^) 阅读(1) 评论(0) 推荐(0)
 
0215MLlib实操——分类算法(逻辑回归)
摘要: 今天实操了MLlib中的分类算法——逻辑回归,这是最常用的二分类算法,重点学习模型的训练、评估和预测流程。 逻辑回归原理:逻辑回归通过Sigmoid函数将线性回归的输出映射到[0,1]之间,用于预测样本属于某一类别的概率,当概率大于0.5时,预测为正类,否则为负类。MLlib中的LogisticRe 阅读全文
posted @ 2026-02-15 22:48 小火柴(^_^) 阅读(1) 评论(0) 推荐(0)
 
0214MLlib实操——数据准备与特征工程
摘要: 今天动手实操了MLlib的核心步骤——数据准备和特征工程,这是机器学习任务的基础,直接影响模型的性能。 数据准备:首先读取数据集(使用DataFrame读取CSV文件),然后处理数据中的缺失值(使用drop()删除缺失值、fill()填充缺失值)、异常值(使用filter()过滤异常值),将非数值型 阅读全文
posted @ 2026-02-15 00:12 小火柴(^_^) 阅读(1) 评论(0) 推荐(0)
 
 

2026年2月13日

0213MLlib基础认知与机器学习流程
摘要: 今天开始学习Spark生态的第四个核心组件——MLlib,重点理解它的定位、核心功能和机器学习的基本流程,为后续实操打基础。 MLlib是Spark的机器学习库,提供了丰富的机器学习算法(如分类、回归、聚类、推荐等),支持大规模的机器学习任务,基于Spark的分布式计算能力,能高效处理海量数据。ML 阅读全文
posted @ 2026-02-13 22:51 小火柴(^_^) 阅读(1) 评论(0) 推荐(0)
 
 

2026年2月6日

0206Spark Streaming实操——Kafka数据源集成
摘要: 今天重点实操了Spark Streaming与Kafka的集成,Kafka是实时数据处理中最常用的消息队列,两者结合是生产环境中实时数据处理的主流方案。 集成准备:首先确保Kafka集群正常运行,创建主题(topic),然后在Spark项目中引入Kafka相关依赖(spark-streaming-k 阅读全文
posted @ 2026-02-06 23:19 小火柴(^_^) 阅读(2) 评论(0) 推荐(0)
 
 

2026年2月5日

0205Spark Streaming实操——DStream的创建与基本操作
摘要: 今天动手实操了Spark Streaming的基本用法,重点学习DStream的创建和常用操作,熟悉实时数据处理的流程。 DStream的创建方式:主要有两种,一是从数据源创建(如socketTextStream、kafkaStream等),二是从已有的DStream转换得到。今天实操了基于TCP 阅读全文
posted @ 2026-02-05 21:50 小火柴(^_^) 阅读(0) 评论(0) 推荐(0)
 
 
下一页

公告


博客园  ©  2004-2026
浙公网安备 33010602011771号 浙ICP备2021040463号-3