2026年2月15日

0208GraphX实操——PageRank算法实现

摘要：今天重点实操了GraphX中的经典图算法——PageRank，PageRank用于计算图中每个顶点的重要性，广泛应用于搜索引擎排序、社交网络影响力分析等场景。 PageRank原理：核心思想是“一个顶点的重要性取决于指向它的顶点的重要性，以及指向它的顶点的出度”。简单来说，一个顶点被越多重要的顶点指阅读全文

posted @ 2026-02-15 22:54 小火柴(^_^) 阅读(5) 评论(0) 推荐(0)

0209Spark生态综合实操——完整数据处理流程

摘要：今天进行了Spark生态的综合实操，整合前面学习的Spark Core、Spark SQL、Spark Streaming、MLlib的知识，完成一个完整的大数据处理流程，模拟生产环境中的实际场景。实操场景：实时接收用户行为日志（通过Kafka发送），使用Spark Streaming读取日志数据阅读全文

posted @ 2026-02-15 22:54 小火柴(^_^) 阅读(9) 评论(0) 推荐(0)

0131GraphX基础认知与核心概念

摘要：今天开始学习Spark生态的第五个核心组件——GraphX，重点理解它的定位、核心概念和适用场景，了解图计算的基本思想。 GraphX是Spark的图计算模块，用于处理大规模的图数据（如社交网络、知识图谱、交通网络等），提供了丰富的图操作和图算法，基于Spark的分布式计算能力，能高效处理海量图数据阅读全文

posted @ 2026-02-15 22:53 小火柴(^_^) 阅读(4) 评论(0) 推荐(0)

0207GraphX实操——图的创建与基本操作

摘要：今天动手实操了GraphX的基本用法，重点学习图的创建和常用图操作，熟悉图计算的基本流程。图的创建方式：主要有两种，一是从VertexRDD和EdgeRDD创建，先创建顶点数据集（包含顶点ID和顶点属性）和边数据集（包含源顶点ID、目标顶点ID和边属性），然后通过Graph(vertices, e 阅读全文

posted @ 2026-02-15 22:53 小火柴(^_^) 阅读(6) 评论(0) 推荐(0)

0130MLlib实操——聚类算法（K-Means）

摘要：今天实操了MLlib中的聚类算法——K-Means，聚类是无监督学习的核心算法，不需要标签数据，用于将数据划分为多个簇，使簇内数据相似度高、簇间数据相似度低。 K-Means原理：K-Means算法首先随机选择K个初始聚类中心，然后迭代计算每个样本到各个聚类中心的距离，将样本分配到距离最近的簇，再更阅读全文

posted @ 2026-02-15 22:52 小火柴(^_^) 阅读(4) 评论(0) 推荐(0)

0215MLlib实操——分类算法（逻辑回归）

摘要：今天实操了MLlib中的分类算法——逻辑回归，这是最常用的二分类算法，重点学习模型的训练、评估和预测流程。逻辑回归原理：逻辑回归通过Sigmoid函数将线性回归的输出映射到[0,1]之间，用于预测样本属于某一类别的概率，当概率大于0.5时，预测为正类，否则为负类。MLlib中的LogisticRe 阅读全文

posted @ 2026-02-15 22:48 小火柴(^_^) 阅读(7) 评论(0) 推荐(0)

0214MLlib实操——数据准备与特征工程

摘要：今天动手实操了MLlib的核心步骤——数据准备和特征工程，这是机器学习任务的基础，直接影响模型的性能。数据准备：首先读取数据集（使用DataFrame读取CSV文件），然后处理数据中的缺失值（使用drop()删除缺失值、fill()填充缺失值）、异常值（使用filter()过滤异常值），将非数值型阅读全文

posted @ 2026-02-15 00:12 小火柴(^_^) 阅读(7) 评论(0) 推荐(0)

2026年2月13日

0213MLlib基础认知与机器学习流程

摘要：今天开始学习Spark生态的第四个核心组件——MLlib，重点理解它的定位、核心功能和机器学习的基本流程，为后续实操打基础。 MLlib是Spark的机器学习库，提供了丰富的机器学习算法（如分类、回归、聚类、推荐等），支持大规模的机器学习任务，基于Spark的分布式计算能力，能高效处理海量数据。ML 阅读全文

posted @ 2026-02-13 22:51 小火柴(^_^) 阅读(4) 评论(0) 推荐(0)

2026年2月6日

0206Spark Streaming实操——Kafka数据源集成

摘要：今天重点实操了Spark Streaming与Kafka的集成，Kafka是实时数据处理中最常用的消息队列，两者结合是生产环境中实时数据处理的主流方案。集成准备：首先确保Kafka集群正常运行，创建主题（topic），然后在Spark项目中引入Kafka相关依赖（spark-streaming-k 阅读全文

posted @ 2026-02-06 23:19 小火柴(^_^) 阅读(4) 评论(0) 推荐(0)

2026年2月5日

0205Spark Streaming实操——DStream的创建与基本操作

摘要：今天动手实操了Spark Streaming的基本用法，重点学习DStream的创建和常用操作，熟悉实时数据处理的流程。 DStream的创建方式：主要有两种，一是从数据源创建（如socketTextStream、kafkaStream等），二是从已有的DStream转换得到。今天实操了基于TCP 阅读全文

posted @ 2026-02-05 21:50 小火柴(^_^) 阅读(3) 评论(0) 推荐(0)

2026年2月15日

2026年2月13日

2026年2月6日

2026年2月5日

公告