Eudemonia⁰ - 博客园

2022年5月

摘要：综合练习：学生课程分数网盘下载sc.txt文件，分别创建RDD、DataFrame和临时表/视图；分别用RDD操作、DataFrame操作和spark.sql执行SQL语句实现以下数据分析: 总共有多少学生？总共开设了多少门课程？每个学生选修了多少门课？每门课程有多少个学生选？每门课程> 阅读全文

posted @ 2022-05-27 20:38 Eudemonia⁰ 阅读(48) 评论(0) 推荐(0)

7.Spark SQL

摘要： 1.分析SparkSQL出现的原因，并简述SparkSQL的起源与发展 SparkSQL出现的原因 Spark SQL 抛弃原有 Spark 的架构方式，但汲取了 Spark 的一些优点，如内存列存储( In-Memory Columnar Storage )、 Hive 兼容性等，重新开发了 SQ 阅读全文

posted @ 2022-05-11 17:51 Eudemonia⁰ 阅读(97) 评论(0) 推荐(0)

2022年4月

6. RDD综合练习：更丰富的操作

摘要：持久化 scm.cache() 总共有多少学生？map(), distinct(), count() 开设了多少门课程？生成（姓名，课程分数）键值对RDD，观察keys(),values() 每个学生选修了多少门课？map(), countByKey() 每门课程有多少个学生选？map(), co 阅读全文

posted @ 2022-04-20 18:17 Eudemonia⁰ 阅读(29) 评论(0) 推荐(0)

5.RDD操作综合实例

摘要：一、词频统计 A:分步骤实现 1.准备文件下载小说或长篇新闻稿上传到hdfs上 2.读文件创建RDD 3.分词 4.排除大小写lower()，map() 标点符号re.split(pattern,str)，flatMap() 停用词,可网盘下载stopwords.txt,filter() 长度小阅读全文

posted @ 2022-04-07 21:37 Eudemonia⁰ 阅读(49) 评论(0) 推荐(0)

2022年3月

RDD操作

摘要：一、 RDD创建 1、从本地文件系统中加载数据创建RDD 2、从HDFS加载数据创建RDD 启动hdfs 上传文件查看文件停止hdfs 3、通过并行集合（列表）创建RDD 输入列表字符串 numpy生成数组二、 RDD操作转换操作 1.转换操作 1.filter(func) 显式定义函数阅读全文

posted @ 2022-03-27 21:13 Eudemonia⁰ 阅读(167) 评论(0) 推荐(0)

3.Spark设计与运行原理，基本操作

摘要： 1、图文阐述Spark生态系统的组成及各组件的功能。 1.1、Spark Core： Spark核心组件，它实现了Spark的基本功能，包含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark Core中还包含了对弹性分布式数据集(Resilient Distributed Dataset 阅读全文

posted @ 2022-03-13 21:58 Eudemonia⁰ 阅读(43) 评论(0) 推荐(0)

安装Spark与Python代码练习

摘要： 1、检查基础环境hadoop,jdk 2、下载spark（省略，原来已下好Spark） 3、解压，文件夹重命名、权限（省略，原来已下好Spark） 4、配置文件 5、环境变量 6、试运行Python代码二、Python编程练习：英文文本的词频统计 1、准备文本文件 2、读文件 path='/hom 阅读全文

posted @ 2022-03-06 22:21 Eudemonia⁰ 阅读(48) 评论(0) 推荐(0)

2022年2月

大数据概述

摘要： 1.列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系，以图呈现并加以文字描述。（1）HDFS（分布式文件系统） HDFS是整个hadoop体系的基础，负责数据的存储与管理。HDFS有着高容错性（fault-tolerant）的特点，并且设计用来部署在低廉的（low-cost）硬件阅读全文

posted @ 2022-02-28 15:48 Eudemonia⁰ 阅读(80) 评论(0) 推荐(0)

公告