会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
啊bin
博客园
首页
新随笔
联系
订阅
管理
2022年6月1日
第七次作业(补交)
摘要: 原因:五一假期忘了 1.请分析SparkSQL出现的原因,并简述SparkSQL的起源与发展。 Spark SQL 的前身是 Shark ,即"Hive on Spark",由 Reynold Xin 主导开发。Shark 项目最初启动于 2011 年,当时 Hive 几乎算是唯一的 SQL-on-
阅读全文
posted @ 2022-06-01 20:15 啊bin
阅读(42)
评论(0)
推荐(0)
2022年5月24日
第八次作业
摘要: 1. 总共有多少学生? 2. 总共开设了多少门课程? 3. 每个学生选修了多少门课? 4. 每门课程有多少个学生选? 5. 每门课程>95分的学生人数 6. 课程'Python'有多少个100分? 7. Tom选修了几门课?每门课多少分? 8. Tom的成绩按分数大小排序。 9. Tom选修了哪几门
阅读全文
posted @ 2022-05-24 08:39 啊bin
阅读(46)
评论(0)
推荐(0)
2022年4月20日
第六次作业
摘要: 集合运算练习 union(), intersection(),subtract(), cartesian() 内连接与外连接 join(), leftOuterJoin(), rightOuterJoin(), fullOuterJoin() 三、综合练习:学生课程分数 网盘下载sc.txt文件,通
阅读全文
posted @ 2022-04-20 10:16 啊bin
阅读(55)
评论(0)
推荐(0)
2022年4月12日
第五次作业
摘要: 一、词频统计 A. 分步骤实现 1.准备文件 1.下载小说或长篇新闻稿 2.上传到hdfs上 2.读文件创建RDD 3.分词 4.排除大小写lower(),map() 标点符号re.split(pattern,str),flatMap(), 停用词,可网盘下载stopwords.txt,filter
阅读全文
posted @ 2022-04-12 12:15 啊bin
阅读(25)
评论(0)
推荐(0)
2022年3月22日
第四次作业
摘要: 一、 RDD创建 1.从本地文件系统中加载数据创建RDD 从HDFS加载数据创建RDD启动hdfs 上传文件 查看文件 加载 停止hdfs 通过并行集合(列表)创建RDD输入列表字符串numpy生成数组 二、 RDD操作 转换操作 filter(func)显式定义函数lambda函数 map(fun
阅读全文
posted @ 2022-03-22 00:34 啊bin
阅读(36)
评论(0)
推荐(0)
2022年3月12日
第三次作业
摘要: 1.Spark生态系统的组成及各组件的功能。 1 . Spark Core:Spark的核心组件,其操作的数据对象是RDD(弹性分布式数据集)图中在Spark Core上面的四个组件都依赖于Spark Core,可以简单认为Spark Core就是Spark生态系统中的离线计算框架,eg:Spark
阅读全文
posted @ 2022-03-12 20:46 啊bin
阅读(65)
评论(0)
推荐(0)
2022年3月5日
第二次作业
摘要: 一、安装Spark hadoop,jdk基础坏境的检查 spark的使用 二、Python编程练习:英文文本的词频统计 import string list=[] dict={} txt=open('text.txt','r').read().lower() #读取文件 for ch in stri
阅读全文
posted @ 2022-03-05 15:22 啊bin
阅读(43)
评论(0)
推荐(0)
2022年2月24日
第一次作业
摘要: 1.列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系,以图呈现并加以文字描述。 1,HDFS(hadoop分布式文件系统) 是hadoop体系中数据存储管理的基础。他是一个高度容错的系统,能检测和应对硬件故障。 client:切分文件,访问HDFS,与namenode交互,获取文件
阅读全文
posted @ 2022-02-24 15:18 啊bin
阅读(46)
评论(0)
推荐(0)
公告