摘要: https://www.cnblogs.com/luckyjie/p/14691947.html 07 Spark RDD编程 综合实例 英文词频统计 保存在自己的博客里,没有提前交,结果忘记了 大作业: 1.选择使用什么数据,有哪些字段,多大数据量。 准备使用美新冠数据,有5个字段,分别是date 阅读全文
posted @ 2021-06-04 18:01 Jay杰 阅读(86) 评论(0) 推荐(0)
摘要: 安装启动检查Mysql服务。 spark 连接mysql驱动程序 启动 Mysql shell,新建数据库spark,表person。 spark读取MySQL数据库中的数据 阅读全文
posted @ 2021-05-31 17:36 Jay杰 阅读(53) 评论(0) 推荐(0)
摘要: 读学生课程分数文件chapter4-data01.txt,创建DataFrame。 一、用DataFrame的操作完成以下数据分析要求 每个分数+5分。 总共有多少学生? 总共开设了哪些课程? 每个学生选修了多少门课? 每门课程有多少个学生选? 每门课程大于95分的学生人数? Tom选修了几门课?每 阅读全文
posted @ 2021-05-23 11:36 Jay杰 阅读(35) 评论(0) 推荐(0)
摘要: 1.pandas df 与 spark df的相互转换 df_s=spark.createDataFrame(df_p) df_p=df_s.toPandas() 2. Spark与Pandas中DataFrame对比 http://www.lining0806.com/spark%E4%B8%8E 阅读全文
posted @ 2021-05-14 00:03 Jay杰 阅读(29) 评论(0) 推荐(0)
摘要: 1.Spark SQL出现的 原因是什么? Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个叫作Data Frame的编程抽象结构数据模型(即带有Schema信息的RDD),Spark SQL作为分布式SQL查询引擎,让用户可以通过SQL、DataFrame API和Data 阅读全文
posted @ 2021-05-07 21:33 Jay杰 阅读(39) 评论(0) 推荐(0)
摘要: 1. 用Pyspark自主实现词频统计过程。 2. 并比较不同计算框架下编程的优缺点、适用的场景。 –Python –MapReduce –Hive –Spark Mapreduce,它最本质的两个过程就是Map和Reduce,Map的应用在于我们需要数据一对一的元素的映射转换,比如说进行截取,进行 阅读全文
posted @ 2021-04-22 23:11 Jay杰 阅读(45) 评论(0) 推荐(0)
摘要: 一、词频统计: 读文本文件生成RDD lines 1. 将一行一行的文本分割成单词 words flatmap() 2. 全部转换为小写 lower() 3. 去掉长度小于3的单词 filter() 4. 去掉停用词 5. 转换成键值对 map() 6. 统计词频 reduceByKey() 7.  阅读全文
posted @ 2021-04-12 19:19 Jay杰 阅读(71) 评论(0) 推荐(0)
摘要: 词频统计: 学习课程分数: 阅读全文
posted @ 2021-04-03 21:30 Jay杰 阅读(36) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2021-03-29 17:45 Jay杰 阅读(24) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2021-03-26 17:44 Jay杰 阅读(35) 评论(0) 推荐(0)