摘要: 1.选择使用什么数据,有哪些字段,多大数据量。 答:us-counties美新冠数据;字段:date,county,state,cases,deaths;数据量:158981条 2.准备分析哪些问题?(8个以上) 1.美国各州每日新增感染人数,各州每日新增死亡人数,各州每日新增治愈人数 2.美国各州 阅读全文
posted @ 2021-06-07 19:26 JestZLB 阅读(25) 评论(0) 推荐(0) 编辑
摘要: 学生课程分数的 Spark SQL 分析 读学生课程分数文件 chapter4-data01.txt,创建 DataFrame from pyspark.sql.types import * from pyspark.sql import Row # 下面生成“表头” fields = [Struc 阅读全文
posted @ 2021-05-20 20:56 JestZLB 阅读(90) 评论(0) 推荐(0) 编辑
摘要: 1.Spark SQL出现的 原因是什么? 2.用spark.read 创建DataFrame 3.观察从不同类型文件创建DataFrame有什么异同? 4.观察Spark的DataFrame与Python pandas的DataFrame有什么异同? spark_sql中DataFrame创建: 阅读全文
posted @ 2021-05-10 21:18 JestZLB 阅读(67) 评论(0) 推荐(0) 编辑
摘要: 一、词频统计: 1.读文本文件生成RDD lines 2.将一行一行的文本分割成单词 words flatmap() 3.全部转换为小写 lower() 4.去掉长度小于3的单词 filter() 5.去掉停用词 6.转换成键值对 map() 7.统计词频 reduceByKey() 二、学生课程分 阅读全文
posted @ 2021-04-05 21:02 JestZLB 阅读(18) 评论(0) 推荐(0) 编辑
摘要: 一、filter,map,flatmap练习: 1.读文本文件生成RDD lines 2.将一行一行的文本分割成单词 words 3.全部转换为小写 4.去掉长度小于3的单词 5.去掉停用词 二、groupByKey练习 1.练习一的生成单词键值对 2.对单词进行分组 3.查看分组结果 学生科目成绩 阅读全文
posted @ 2021-03-31 20:57 JestZLB 阅读(38) 评论(0) 推荐(0) 编辑
摘要: 1. 准备文本文件从文件创建RDD lines=sc.textFile()筛选出含某个单词的行 lines.filter()lambda 参数:条件表达式 2. 生成单词的列表从列表创建RDD words=sc.parallelize()筛选出长度大于2 的单词 words.filter() 3. 阅读全文
posted @ 2021-03-28 19:37 JestZLB 阅读(42) 评论(0) 推荐(0) 编辑
摘要: 使用HBase Shell命令 或 使用HBase Java API完成: 1.任务: 列出HBase所有的表的相关信息,例如表名; 在终端打印出指定的表的所有记录数据; 向已经创建好的表添加和删除指定的列族或列; 清空指定的表的所有记录数据; 统计表的行数。 2.关系型数据库中的表和数据(教材P9 阅读全文
posted @ 2020-11-22 19:19 JestZLB 阅读(80) 评论(0) 推荐(0) 编辑
摘要: 必做 1.词频统计 下载喜欢的电子书或大量文本数据,并保存在本地文本文件中 编写map与reduce函数 本地测试map与reduce 将文本数据上传至HDFS上 用hadoop streaming提交任务 查看运行结果 计算结果取回到本地 阅读全文
posted @ 2020-11-13 09:11 JestZLB 阅读(70) 评论(0) 推荐(0) 编辑
摘要: 本地文件系统创建一个文件,输入带姓名学号信息。 查看新建文件所在目录 查看新建文件内容 将此文件上传到HDFS文件系统上的用户目录 HDFS上查看相应目录 HDFS上查看文件内容 HDFS上查看文件大小 删除本地1步骤创建的文件 将HDFS上的文件下载到本地 查看本地文件目录 阅读全文
posted @ 2020-10-24 15:52 JestZLB 阅读(111) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2020-10-20 19:53 JestZLB 阅读(66) 评论(0) 推荐(0) 编辑