摘要:
补交作业: 02 Spark架构与运行流程 https://www.cnblogs.com/tangweiyi/p/14854951.html 04 RDD编程练习 https://www.cnblogs.com/tangweiyi/p/14854962.html 08 学生课程分数的Spark S 阅读全文
posted @ 2021-06-06 12:21
圆圆圆圆1111
阅读(50)
评论(0)
推荐(0)
摘要:
一、用DataFrame的操作完成以下数据分析要求 每个分数+5分。 总共有多少学生? 总共开设了哪些课程? 每个学生选修了多少门课? 每门课程有多少个学生选? 每门课程大于95分的学生人数? Tom选修了几门课?每门课多少分? Tom选修了几门课?每门课多少分? Tom的成绩按分数大小排序。 To 阅读全文
posted @ 2021-06-06 11:56
圆圆圆圆1111
阅读(52)
评论(0)
推荐(0)
摘要:
一、filter,map,flatmap练习: 1.读文本文件生成RDD lines 2.将一行一行的文本分割成单词 words 3.全部转换为小写 4.去掉长度小于3的单词 5.去掉停用词 6.练习一的生成单词键值对 阅读全文
posted @ 2021-06-06 11:55
圆圆圆圆1111
阅读(33)
评论(0)
推荐(0)
摘要:
1、为什么要引入Yarn和Spark。 (1)现有的hadoop生态系统中存在的问题 1)使用mapreduce进行批量离线分析; 2)使用hive进行历史数据的分析; 3)使用hbase进行实时数据的查询; 4)使用storm进行实时的流处理; (2)选用spark的原因 1) 应用于流式计算的S 阅读全文
posted @ 2021-06-06 11:51
圆圆圆圆1111
阅读(40)
评论(0)
推荐(0)
浙公网安备 33010602011771号