摘要: 大作业: 1.选择使用什么数据,有哪些字段,多大数据量。 选择使用美国疫情数据;有日期、县、州、确诊人数、死亡人数 2.准备分析哪些问题?(8个以上) 某个县每天有多少确诊病例和死亡病例 每个县最多确证病例是哪一天有多少 每个县最多死亡病例是哪一天有多少 5.19确证病例前十的州 5.19死亡病例前 阅读全文
posted @ 2021-06-06 22:41 方大师 阅读(17) 评论(0) 推荐(0) 编辑
摘要: 1.安装启动检查Mysql服务。 netstat -tunlp (3306) 2.spark 连接mysql驱动程序。 cd /usr/local/hive/libls mysql*cp mysql-connector-java-5.1.40-bin.jar /usr/local/spark/jar 阅读全文
posted @ 2021-05-31 00:35 方大师 阅读(35) 评论(0) 推荐(0) 编辑
摘要: 生成表头from pyspark.sql.types import *from pyspark.sql import RowschemaString="name course score"fields=[StructField(field_name,StringType(),True) for fi 阅读全文
posted @ 2021-05-20 00:45 方大师 阅读(33) 评论(0) 推荐(0) 编辑
摘要: 1.pandas df 与 spark df的相互转换 df_s=spark.createDataFrame(df_p) df_p=df_s.toPandas() 2. Spark与Pandas中DataFrame对比 http://www.lining0806.com/spark%E4%B8%8E 阅读全文
posted @ 2021-05-12 22:40 方大师 阅读(29) 评论(0) 推荐(0) 编辑
摘要: 1.Spark SQL出现的 原因是什么? SparkSQL是spark用来处理结构化的一个模块,它提供一个抽象的数据集DataFrame,并且是作为分布式SQL查询引擎的应用,可以将执行效率大大提升。 2.用spark.read 创建DataFrame 3.观察从不同类型文件创建DataFrame 阅读全文
posted @ 2021-05-09 21:45 方大师 阅读(47) 评论(0) 推荐(0) 编辑
摘要: 一、词频统计: 1.读文本文件生成RDD lines lines=sc.textFile("file:///usr/local/spark/mycode/rdd/word.txt") lines.foreach(print) 2.将一行一行的文本分割成单词 words flatmap() words 阅读全文
posted @ 2021-04-18 15:44 方大师 阅读(73) 评论(0) 推荐(0) 编辑
摘要: 一、词频统计: 1.读文本文件生成RDD lines lines=sc.textFile("file:///usr/local/spark/mycode/rdd/word.txt") lines.foreach(print) 2.将一行一行的文本分割成单词 words flatmap() words 阅读全文
posted @ 2021-04-03 16:12 方大师 阅读(119) 评论(0) 推荐(0) 编辑
摘要: 一、filter,map,flatmap练习: 1.读文本文件生成RDD lines lines=sc.textFile("file:///usr/local/spark/mycode/rdd/word.txt") lines.collect() 2.将一行一行的文本分割成单词 words word 阅读全文
posted @ 2021-03-30 18:06 方大师 阅读(51) 评论(0) 推荐(0) 编辑
摘要: 1. 准备文本文件 vim /usr/local/spark/mycode/rdd/word.txt 从文件创建RDD lines=sc.textFile() 筛选出含某个单词的行 lines.filter() lambda 参数:条件表达式 2. 生成单词的列表从列表创建RDD words=sc. 阅读全文
posted @ 2021-03-28 14:17 方大师 阅读(34) 评论(0) 推荐(0) 编辑
摘要: 1. 阐述Hadoop生态系统中,HDFS, MapReduce, Yarn, Hbase及Spark的相互关系,为什么要引入Yarn和Spark。 HDFSHDFS(Hadoop分布式文件系统)源自于Google的GFS论文,发表于2003年10月,HDFS是GFS的实现版。HDFS是Hadoop 阅读全文
posted @ 2021-03-12 15:15 方大师 阅读(29) 评论(0) 推荐(0) 编辑