xhm11111 - 博客园

2022年5月11日

摘要： 1.请分析SparkSQL出现的原因，并简述SparkSQL的起源与发展。 Spark SQL 的前身是 Shark ，即"Hive on Spark"，由 Reynold Xin 主导开发。Spark SQL 抛弃原有 Shark 的架构方式，但汲取了 Shark 的一些优点，如内存列存储( In 阅读全文

posted @ 2022-05-11 20:14 xhm11111 阅读(49) 评论(0) 推荐(0)

2022年4月18日

6. RDD综合练习：更丰富的操作

摘要：集合运算练习union()， intersection()，subtract(), cartesian() 内连接与外连接join(), leftOuterJoin(), rightOuterJoin(), fullOuterJoin() 三、综合练习：学生课程分数网盘下载sc.txt文件，通过R 阅读全文

posted @ 2022-04-18 22:56 xhm11111 阅读(58) 评论(0) 推荐(0)

2022年4月8日

5.RDD操作综合实例

摘要： A分步骤实现： 1.准备文件 1.下载小说或长篇新闻稿 2.上传到hdfs上 2.读文件创建RDD 3.分词 4.　排除大小写lower()，map() 标点符号re.split(pattern,str)，flatMap(), 停用词,可网盘下载stopwords.txt,filter()，长度小阅读全文

posted @ 2022-04-08 16:43 xhm11111 阅读(26) 评论(0) 推荐(0)

2022年3月22日

4.RDD操作

摘要：一、RDD的创建 1.从本地文件系统中加载数据创建RDD 2.从HDFS加载数据创建RDD、启动hdfs、上传文件、查看文件、加载 3.通过并行集合（列表）创建RDD 二、RDD的操作转换操作 1.filter(func) lambda函数显式定义函数 2.map(func) 显式定义函数lam 阅读全文

posted @ 2022-03-22 00:22 xhm11111 阅读(22) 评论(0) 推荐(0)

2022年3月14日

3.Spark设计与运行原理，基本操作

摘要： 1.Spark已打造出结构一体化、功能多样化的大数据生态系统，请用图文阐述Spark生态系统的组成及各组件的功能。 Spark生态系统由：Spark SQL、Spark Streaming、MLlib、GraphX、Apache Spark组成，如图一所示图1 Spark Spark SQL： S 阅读全文

posted @ 2022-03-14 11:11 xhm11111 阅读(123) 评论(0) 推荐(0)

2022年3月2日

安装spark与python练习

摘要：一、安装Spark 1.检查基础环境hadoop,jdk 2.配置文件 3.环境变量 4.在spark中试运行python代码二、Python编程练习：英文文本的词频统计 1.准备文本文件 2.源代码 import stringfrom os import pathwith open(r'F:\大阅读全文

posted @ 2022-03-02 21:46 xhm11111 阅读(51) 评论(0) 推荐(0)

2022年2月22日

1.大数据第一次作业

摘要：一、列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系，以图呈现并加以文字描述。组件1：HDFS，作用：分布式文件系统，存储是hadoop体系的基础。组件2：MapReduce，作用：作为一种计算模型，用来大数据的计算。组件3：Yarn，作用：改善MapReduce的缺陷，是另阅读全文

posted @ 2022-02-22 21:45 xhm11111 阅读(117) 评论(0) 推荐(0)

公告