叶文茂 - 博客园

2022年5月20日

摘要： #####综合练习：学生课程分数点击查看代码 ### 网盘下载sc.txt文件，分别用RDD操作、DataFrame操作和spark.sql执行SQL语句实现以下数据分析 ## 导入本次实验所需要用到的包 from pyspark.sql import Row from pyspark.sql.t 阅读全文

posted @ 2022-05-20 00:43 叶文茂阅读(116) 评论(0) 推荐(0) 编辑

2022年5月7日

7.Spark SQL

摘要：一. 分析SparkSQL出现的原因，并简述SparkSQL的起源与发展。二. 简述RDD 和DataFrame的联系与区别。三. DataFrame的创建与保存: PySpark-DataFrame创建： spark.read.text(url) spark.read.json(url) sp 阅读全文

posted @ 2022-05-07 11:19 叶文茂阅读(29) 评论(0) 推荐(0) 编辑

2022年4月13日

6. RDD综合练习：更丰富的操作

摘要：点击查看代码 ''' sc.txt文件字段名: 姓名, 课程, 分数 ''' # 读取文件创建RDD 并进行处理转换持久化 lines = sc.textFile("file:///home/ywm/sc.txt") skv = lines.map(lambda line:line.split(' 阅读全文

posted @ 2022-04-13 08:42 叶文茂阅读(87) 评论(0) 推荐(1) 编辑

2022年3月30日

5.RDD操作综合实例

摘要：一、词频统计分步骤实现准备文件下载小说或长篇新闻稿上传到hdfs上读文件创建RDD 分词排除大小写，标点符号，停用词，长度小于2的词统计词频排序输出到文件查看结果一句话实现点击查看代码 ''' 词频统计准备文件包括词频统计文件和停用词文件存放于实验机或hdfs上进入py 阅读全文

posted @ 2022-03-30 18:23 叶文茂阅读(93) 评论(1) 推荐(0) 编辑

2022年3月16日

4.RDD操作

摘要：一、 RDD创建从本地文件系统中加载数据创建RDD 从HDFS加载数据创建RDD 启动hdfs 上传文件查看文件加载停止hdfs 通过并行集合（列表）创建RDD 输入列表、字符串、生成数组二、 RDD操作转换操作 map(func) 显式定义函数 lambda函数行动操作 foreac 阅读全文

posted @ 2022-03-16 23:22 叶文茂阅读(22) 评论(0) 推荐(0) 编辑

2022年3月9日

3.Spark设计与运行原理，基本操作

摘要： 1.Spark已打造出结构一体化、功能多样化的大数据生态系统，请用图文阐述Spark生态系统的组成及各组件的功能。 Spark Core: Spark Core 是整个Spark生态的核心,是一种大数据分布式处理框架.不仅提供map和reduce函数,还提供了计算模型,join, filter等. 阅读全文

posted @ 2022-03-09 20:03 叶文茂阅读(52) 评论(0) 推荐(0) 编辑

2022年3月2日

2 安装Spark与Python练习

摘要：一、安装Spark 检查基础环境hadoop,jdk 下载spark 解压，文件夹重命名、权限配置文件环境变量试运行Python代码二、Python编程练习：英文文本的词频统计准备文本文件读文件预处理：大小写，标点符号，停用词分词统计每个单词出现的次数按词频大小排序结果写文件阅读全文

posted @ 2022-03-02 19:34 叶文茂阅读(26) 评论(0) 推荐(0) 编辑

2022年2月23日

1.大数据概述

摘要： 1.列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系，以图呈现并加以文字描述。 a. HDFS（hadoop分布式文件系统）是hadoop体系中数据存储管理者。 b. MapReduce（分布式计算框架）mapreduce是一种计算模型，用于处理大数据量的计算者。 c. Hive（阅读全文

posted @ 2022-02-23 13:15 叶文茂阅读(37) 评论(0) 推荐(0) 编辑

公告