江湖神经

导航

2022年5月11日 #

8. SparkSQL综合作业

摘要: 7.Spark SQL 5. Pyspark中DataFrame与pandas中DataFrame 分别从文件创建DataFrame 比较两者的异同 pandas中DataFrame转换为Pyspark中DataFrame Pyspark中DataFrame转换为pandas中DataFrame 6 阅读全文

posted @ 2022-05-11 15:28 江湖神经 阅读(119) 评论(0) 推荐(0) 编辑

2022年4月24日 #

7.Spark SQL

摘要: 1.请分析SparkSQL出现的原因,并简述SparkSQL的起源与发展。 因为关系数据库已经很流行,而且关系数据库在大数据时代已经不能满足要求。首先,用户需要从不同数据源执行各种操作,包括结构化、半结构化和非结构化数据。其次,用户需要执行高级分析,比如机器学习和图像处理。在实际大数据应用中,经常需 阅读全文

posted @ 2022-04-24 09:32 江湖神经 阅读(81) 评论(0) 推荐(0) 编辑

2022年4月12日 #

6. RDD综合练习:更丰富的操作

摘要: 集合运算练习 union(), intersection(),subtract(), cartesian() 内连接与外连接 join(), leftOuterJoin(), rightOuterJoin(), fullOuterJoin() 多个考勤文件,签到日期汇总,出勤次数统计 三、综合练习: 阅读全文

posted @ 2022-04-12 13:00 江湖神经 阅读(73) 评论(0) 推荐(0) 编辑

2022年3月29日 #

5.RDD操作综合实例

摘要: 一、词频统计 A.分步骤实现 1.准备文件 1.下载小说或长篇新闻稿 2.上传到hdfs 启动hdfs 上传文件并查看 2.读文件创建RDD 创建SparkContext以及从文件系统中加载数据创建RDD 与原txt文件对比 3.分词 4.标点符号re.split(pattern,str),flat 阅读全文

posted @ 2022-03-29 10:09 江湖神经 阅读(66) 评论(0) 推荐(0) 编辑

2022年3月18日 #

4.RDD操作

摘要: 一、 RDD创建 1.从本地文件系统中加载数据创建RDD 创建SparkContext以及从文件系统中加载数据创建RDD 与原txt文件对比 2.从HDFS加载数据创建RDD 启动hdfs 上传文件 查看文件 加载 停止hdfs 3.通过并行集合(列表)创建RDD 输入列表、字符串、生成数组 二、 阅读全文

posted @ 2022-03-18 15:19 江湖神经 阅读(61) 评论(0) 推荐(0) 编辑

2022年3月10日 #

3.Spark设计与运行原理,基本操作

摘要: 1.Spark已打造出结构一体化、功能多样化的大数据生态系统,请用图文阐述Spark生态系统的组成及各组件的功能。 ·Spark Core:BDAS生态系统的核心组件,是一种大数据分布式处理框架,提供了多种资源调度管理,通过内存计算、有向无环图(DAG)等机制保证分布式计算的快速,并引入了RDD的抽 阅读全文

posted @ 2022-03-10 19:10 江湖神经 阅读(21) 评论(0) 推荐(0) 编辑

2022年3月4日 #

2.安装Spark与Python练习

摘要: 一、安装Spark 1.检查基础环境hadoop,jdk 2.下载spark 由于上学期已经下载好了Spark,这里没有下载过程的截图 3.配置文件 4.配置环境变量 5.运行 二、Python编程练习:英文文本的词频统计 path='/home/hadoop/wc/f1.txt' with ope 阅读全文

posted @ 2022-03-04 12:57 江湖神经 阅读(24) 评论(0) 推荐(0) 编辑

2022年2月22日 #

1.大数据概述

摘要: 1.列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系,以图呈现并加以文字描述。 (1) 由Hadoop生态圈可以看出HDFS是Hadoop的基石。HDFS是一个具备高度容错性的文件系统,同时适合部署在低廉价的硬件上。提供高吞吐量的数据访问,适合有着超大数据集的应用程序。 (2) Y 阅读全文

posted @ 2022-02-22 11:16 江湖神经 阅读(11) 评论(0) 推荐(0) 编辑