摘要: 综合练习:学生课程分数 网盘下载sc.txt文件,分别用RDD操作、DataFrame操作和spark.sql执行SQL语句实现以下数据分析: 网盘下载sc.txt文件,创建RDD,并转换得到DataFrame 一、DataFrame操作 1.总共有多少学生? 2.总共开设了多少门课程? 3.每个学 阅读全文
posted @ 2022-05-27 14:07 hetianming 阅读(246) 评论(0) 推荐(0) 编辑
摘要: 1.分析SparkSQL出现的原因,并简述SparkSQL的起源与发展。 Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个叫作Data Frame的编程抽象结构数据模型(即带有Schema信息的RDD),Spark SQL作为分布式SQL查询引擎,让用户可以通过SQL、Dat 阅读全文
posted @ 2022-05-11 10:49 hetianming 阅读(22) 评论(0) 推荐(0) 编辑
摘要: 集合运算练习 union(), intersection(),subtract(), cartesian() 内连接与外连接 join(), leftOuterJoin(), rightOuterJoin(), fullOuterJoin() 多个考勤文件,签到日期汇总,出勤次数统计 三、综合练习: 阅读全文
posted @ 2022-04-13 14:51 hetianming 阅读(27) 评论(0) 推荐(0) 编辑
摘要: A.分步骤实现 1.准备文件 上传到hdfs上 2.读文件创建RDD 3.分词 4.排除大小写lower(),map() 标点符号re.split(pattern,str),flatMap(),先导入re然后用re.split分词 长度小于2的词filter() 5.统计词频 6.按词频排序 7.输 阅读全文
posted @ 2022-04-07 14:24 hetianming 阅读(15) 评论(0) 推荐(0) 编辑
摘要: 一、 RDD创建 1.从本地文件系统中加载数据创建RDD print命令要输入from __future__ import print_function 2.从HDFS加载数据创建RDD 启动hdfs 上传文件 查看文件 加载 停止hdfs 3.通过并行集合(列表)创建R 数组 列表 字符串 二、 阅读全文
posted @ 2022-03-16 15:38 hetianming 阅读(44) 评论(0) 推荐(0) 编辑
摘要: 1.Spark已打造出结构一体化、功能多样化的大数据生态系统,请用图文阐述Spark生态系统的组成及各组件的功能。 2.请详细阐述Spark的几个主要概念及相互关系: Master:负责应用的资源管理,根据应用的需要,向ResourceManager申请资源 Worker :从节点,负责控制计算节点 阅读全文
posted @ 2022-03-13 20:47 hetianming 阅读(52) 评论(0) 推荐(0) 编辑
摘要: 1.基础环境--环境准备检查 2.环境变量 3.运行pyspark 4.python代码测试 二、Python编程练习:英文文本的词频统计 1.准备文本文件 通过终端命令创建文件,一个放英文内容,一是python代码文件 2.读文件 # 1 获取文本 f = open("这里修改为你要读取文件的地址 阅读全文
posted @ 2022-03-03 00:21 hetianming 阅读(31) 评论(0) 推荐(0) 编辑
摘要: 题目:1.列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系,以图呈现并加以文字描述。 回答: 1)Hadoop是一个能够对大量数据进行分布式处理的软件框架。具有可靠、高效、可伸缩的特点。 Hadoop的核心是HDFS和MapReduce,hadoop2.0还包括YARN。1,HDF 阅读全文
posted @ 2022-02-25 23:05 hetianming 阅读(43) 评论(0) 推荐(0) 编辑