会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
Jay杰
博客园
首页
新随笔
联系
订阅
管理
2021年6月4日
10 期末大作业
摘要: https://www.cnblogs.com/luckyjie/p/14691947.html 07 Spark RDD编程 综合实例 英文词频统计 保存在自己的博客里,没有提前交,结果忘记了 大作业: 1.选择使用什么数据,有哪些字段,多大数据量。 准备使用美新冠数据,有5个字段,分别是date
阅读全文
posted @ 2021-06-04 18:01 Jay杰
阅读(86)
评论(0)
推荐(0)
2021年5月31日
09 spark连接mysql数据库
摘要: 安装启动检查Mysql服务。 spark 连接mysql驱动程序 启动 Mysql shell,新建数据库spark,表person。 spark读取MySQL数据库中的数据
阅读全文
posted @ 2021-05-31 17:36 Jay杰
阅读(53)
评论(0)
推荐(0)
2021年5月23日
08 学生课程分数的Spark SQL分析
摘要: 读学生课程分数文件chapter4-data01.txt,创建DataFrame。 一、用DataFrame的操作完成以下数据分析要求 每个分数+5分。 总共有多少学生? 总共开设了哪些课程? 每个学生选修了多少门课? 每门课程有多少个学生选? 每门课程大于95分的学生人数? Tom选修了几门课?每
阅读全文
posted @ 2021-05-23 11:36 Jay杰
阅读(35)
评论(0)
推荐(0)
2021年5月14日
07 从RDD创建DataFrame
摘要: 1.pandas df 与 spark df的相互转换 df_s=spark.createDataFrame(df_p) df_p=df_s.toPandas() 2. Spark与Pandas中DataFrame对比 http://www.lining0806.com/spark%E4%B8%8E
阅读全文
posted @ 2021-05-14 00:03 Jay杰
阅读(29)
评论(0)
推荐(0)
2021年5月7日
06 Spark SQL 及其DataFrame的基本操作
摘要: 1.Spark SQL出现的 原因是什么? Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个叫作Data Frame的编程抽象结构数据模型(即带有Schema信息的RDD),Spark SQL作为分布式SQL查询引擎,让用户可以通过SQL、DataFrame API和Data
阅读全文
posted @ 2021-05-07 21:33 Jay杰
阅读(39)
评论(0)
推荐(0)
2021年4月22日
07 Spark RDD编程 综合实例 英文词频统计
摘要: 1. 用Pyspark自主实现词频统计过程。 2. 并比较不同计算框架下编程的优缺点、适用的场景。 –Python –MapReduce –Hive –Spark Mapreduce,它最本质的两个过程就是Map和Reduce,Map的应用在于我们需要数据一对一的元素的映射转换,比如说进行截取,进行
阅读全文
posted @ 2021-04-22 23:11 Jay杰
阅读(45)
评论(0)
推荐(0)
2021年4月12日
06 RDD编程
摘要: 一、词频统计: 读文本文件生成RDD lines 1. 将一行一行的文本分割成单词 words flatmap() 2. 全部转换为小写 lower() 3. 去掉长度小于3的单词 filter() 4. 去掉停用词 5. 转换成键值对 map() 6. 统计词频 reduceByKey() 7.
阅读全文
posted @ 2021-04-12 19:19 Jay杰
阅读(71)
评论(0)
推荐(0)
2021年4月3日
05 RDD练习:词频统计,学习课程分数
摘要: 词频统计: 学习课程分数:
阅读全文
posted @ 2021-04-03 21:30 Jay杰
阅读(36)
评论(0)
推荐(0)
2021年3月29日
04 RDD编程练习
摘要:
阅读全文
posted @ 2021-03-29 17:45 Jay杰
阅读(24)
评论(0)
推荐(0)
2021年3月26日
Spark RDD编程基础
摘要:
阅读全文
posted @ 2021-03-26 17:44 Jay杰
阅读(35)
评论(0)
推荐(0)
下一页
公告