摘要: Python学习进度博客(三):进阶特性与实战项目 随着学习的深入,我开始接触Python的一些高级特性。首先是装饰器,这个概念在Java中是通过注解实现的,但Python的装饰器更加灵活强大。我理解了装饰器本质上是一个函数,它接受一个函数作为参数并返回一个新的函数,可以在不修改原函数代码的情况下增 阅读全文
posted @ 2026-02-27 09:37 ytr123 阅读(2) 评论(0) 推荐(0)
摘要: Python学习进度博客(二):面向对象与异常处理 在掌握了Python基础语法后,我开始深入学习Python的面向对象编程特性。Python的面向对象与其他语言有些不同,它采用了一切皆对象的理念,甚至连函数都是对象。我学习了类的定义和使用,发现Python的类定义非常灵活,__init__方法相当 阅读全文
posted @ 2026-02-02 22:04 ytr123 阅读(4) 评论(0) 推荐(0)
摘要: Python学习进度博客(一):基础语法与初体验 作为一名软件工程专业的大三学生,虽然已经学过Java、C++等语言,但Python一直是我技能树上的一个缺口。这个学期,我决定系统地学习Python,为接下来的毕业设计和可能的Python开发岗位做准备。在开始学习之前,我首先完成了Python环境的 阅读全文
posted @ 2026-01-30 19:57 ytr123 阅读(4) 评论(0) 推荐(0)
摘要: Spark机器学习学习进度博客(二):算法实践与模型调优 在掌握了数据预处理的基础后,我开始深入学习Spark MLlib中的各类算法。分类算法是机器学习中最常见的任务之一,我首先实践了逻辑回归算法,使用Spark自带的二分类数据集进行训练,通过setFamily方法设置二分类或多分类模式,训练完成 阅读全文
posted @ 2026-01-29 17:23 ytr123 阅读(4) 评论(0) 推荐(0)
摘要: Spark机器学习学习进度博客(一):基础入门与数据预处理 作为一名软件工程专业的大三学生,在大数据浪潮兴起的背景下,我开始学习Spark机器学习框架,希望掌握处理大规模数据的机器学习技术。我首先搭建了Spark开发环境,安装了Apache Spark 3.4版本,配置了Hadoop依赖,并使用In 阅读全文
posted @ 2026-01-24 23:11 ytr123 阅读(5) 评论(0) 推荐(0)
摘要: 7 阅读全文
posted @ 2026-01-22 20:50 ytr123 阅读(6) 评论(0) 推荐(0)
摘要: Spark Streaming 初级实践:Flume + Spark 日志采集与处理 前言 在大数据处理领域,实时流处理是一个非常重要的应用场景。本次实践旨在通过完整的实验流程,掌握日志采集工具 Flume 的安装使用,以及如何将 Flume 与 Spark Streaming 集成,实现实时日志数 阅读全文
posted @ 2026-01-21 18:44 ytr123 阅读(3) 评论(0) 推荐(0)
摘要: Spark SQL 编程初体验:从 JSON 到 MySQL 的完整数据处理流程 前言 在大数据时代,Spark 作为主流的数据处理框架,其 Spark SQL 模块提供了强大的结构化数据处理能力。今天,我将通过厦门大学林子雨老师的《Spark编程基础》实验5,带大家体验一次完整的 Spark SQ 阅读全文
posted @ 2026-01-20 15:35 ytr123 阅读(3) 评论(0) 推荐(0)
摘要: RDD编程入门 一、引言:为什么要学RDD? 在大数据处理领域,Spark已成为事实上的标准计算框架。而弹性分布式数据集(RDD) 作为Spark最核心的数据抽象,是每个Spark开发者必须掌握的基础。通过本次实验,我将带你从零开始,通过三个经典案例,全面掌握RDD编程的核心操作。 二、实验环境搭建 阅读全文
posted @ 2026-01-19 17:46 ytr123 阅读(3) 评论(0) 推荐(0)
摘要: Spark与Hadoop的安装与初体验 一、Hadoop和Spark安装 1.1 Hadoop伪分布式安装 按照官方教程,主要配置以下几个文件: xml fs.defaultFS hdfs://node01:9000 dfs.replication 1 安装完成后,执行格式化并启动: bash hd 阅读全文
posted @ 2026-01-17 20:36 ytr123 阅读(4) 评论(0) 推荐(0)