摘要: 大作业: 1.选择使用什么数据,有哪些字段,多大数据量。 数据:2020年1月21日到2020年5月19日的美国疫情数据 字段: date 日期 county 市/县 state 州 cases 确诊人数 deaths 死亡人数 数据量:158981条数据 2.准备分析哪些问题?(8个以上) 准备分 阅读全文
posted @ 2021-06-07 19:44 少吃外卖 阅读(15) 评论(0) 推荐(0) 编辑
摘要: 读学生课程分数文件chapter4-data01.txt,创建DataFrame。 一、用DataFrame的操作或SQL语句完成以下数据分析要求,并和用RDD操作的实现进行对比 1.每个分数+5分 2.总共有多少学生? 3.总共开设了哪些课程? 4.每个学生选修了多少门课? 5.每门课程有多少个学 阅读全文
posted @ 2021-05-19 00:20 少吃外卖 阅读(60) 评论(0) 推荐(1) 编辑
摘要: 一、词频统计: 1.读文本文件生成RDD lines;将一行一行的文本分割成单词 words flatmap();全部转换为小写 lower();去掉长度小于3的单词 filter();去掉停用词;转换成键值对 map();统计词频 reduceByKey() 2.按字母顺序排序 sortByKey 阅读全文
posted @ 2021-04-18 16:56 少吃外卖 阅读(83) 评论(0) 推荐(0) 编辑
摘要: 1. 熟悉 Linux系统的使用 2. 在Ubuntu下安装MySQL及其常规操作 阅读全文
posted @ 2020-10-10 20:31 少吃外卖 阅读(70) 评论(0) 推荐(0) 编辑
摘要: 1.了解对比Hadoop不同版本的特性,可以用图表的形式呈现。 Apache Hadoop: Apache Hadoop是apache提供的官方版本,以yarn框架的出现为标志分为Hadoop第一代和Hadoop第二代。第二代Hadoop跟第一代相比有了明显的不同,包含了HDFS Federatio 阅读全文
posted @ 2020-09-18 18:37 少吃外卖 阅读(177) 评论(0) 推荐(0) 编辑
摘要: 1.了解微信、微博、小视频每天产生的数据量与数据类型。 2018年微信每日用户活跃量2.5亿,每天有450亿次的消息发送出去,每天有4.1亿次音视频呢呼叫成功。 2019 年,在抖音的800多万个跃账号中,平均每天会产生 103 万条短视频,其中诞生了26635条点赞100多万视频,日均92条,占视 阅读全文
posted @ 2020-09-11 22:53 少吃外卖 阅读(59) 评论(0) 推荐(0) 编辑