会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
落幕无华
博客园
首页
新随笔
联系
订阅
管理
2021年6月6日
10 期末大作业
摘要: 大作业: 1.选择使用数据,有什么字段,数据量。 选择使用美国疫情数据;有日期、县、州、确诊人数、死亡人数 2.准备分析哪些问题?(8个以上) 每天有多少确诊病例和死亡病例 每个县有多少确诊病例和死亡病例 确诊人数最多的县 死亡人数最多的县 死亡病例为0的县有哪些 2020年3月14日的确诊人数 确
阅读全文
posted @ 2021-06-06 21:58 落幕无华
阅读(56)
评论(0)
推荐(0)
2021年5月30日
09 spark连接mysql数据库
摘要: spark连接mysql数据库: 1.安装启动检查Mysql服务。 2.spark 连接mysql驱动程序。 –cp /usr/local/hive/lib/mysql-connector-java-5.1.40-bin.jar /usr/local/spark/jars netstat -tunl
阅读全文
posted @ 2021-05-30 23:44 落幕无华
阅读(30)
评论(0)
推荐(0)
2021年5月23日
08 学生课程分数的Spark SQL分析
摘要: 一. 读学生课程分数文件chapter4-data01.txt,创建DataFrame。 1.生成“表头” 2.生成“表中的记录” 3.把“表头”和“表中的记录”拼装在一起 用DataFrame的操作或SQL语句完成以下数据分析要求,并和用RDD操作的实现进行对比: 每个分数+5分。 df_scs.
阅读全文
posted @ 2021-05-23 15:57 落幕无华
阅读(42)
评论(0)
推荐(0)
2021年5月14日
07 从RDD创建DataFrame
摘要: 1.pandas df 与 spark df的相互转换 3.1 利用反射机制推断RDD模式 sc创建RDD 转换成Row元素,列名=值 spark.createDataFrame生成df df.show(), df.printSchema() 3.2 使用编程方式定义RDD模式 生成“表头” fie
阅读全文
posted @ 2021-05-14 18:41 落幕无华
阅读(35)
评论(0)
推荐(0)
2021年5月10日
06 Spark SQL 及其DataFrame的基本操作
摘要: Spark SQL出现的 原因是什么? Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个叫作Data Frame的编程抽象结构数据模型(即带有Schema信息的RDD),Spark SQL的前身是 Shark,由于 Shark过于依赖Hive,因此在版本迭代时很难添加新的优化
阅读全文
posted @ 2021-05-10 13:31 落幕无华
阅读(61)
评论(0)
推荐(0)
2021年4月25日
05 RDD编程
摘要: 一、词频统计: 1.读文本文件生成RDD lines lines = sc.textFile('file:///home/hadoop/word.txt') 2.将一行一行的文本分割成单词 words flatmap() words=lines.flatMap(lambda line:line.sp
阅读全文
posted @ 2021-04-25 12:18 落幕无华
阅读(59)
评论(0)
推荐(0)
2021年4月19日
05 RDD编程
摘要: 一、词频统计: 读文本文件生成RDD lines 将一行一行的文本分割成单词 words flatmap() 全部转换为小写 lower() 去掉长度小于3的单词 filter() 去掉停用词 转换成键值对 map() 统计词频 reduceByKey() 按字母顺序排序 sortBy(f) 按词频
阅读全文
posted @ 2021-04-19 08:31 落幕无华
阅读(43)
评论(0)
推荐(0)
2021年4月5日
05 RDD练习:词频统计
摘要: 一、词频统计: 1.读文本文件生成RDD lines 2.将一行一行的文本分割成单词 words flatmap() 3.全部转换为小写 lower() 4.去掉长度小于3的单词 filter() 5.去掉停用词 6.转换成键值对 map() 7.统计词频 reduceByKey() 二、学生课程分
阅读全文
posted @ 2021-04-05 19:56 落幕无华
阅读(22)
评论(0)
推荐(0)
2021年3月30日
04 RDD编程练习
摘要: 一、filter,map,flatmap练习: 1.读文本文件生成RDD lines 2.将一行一行的文本分割成单词 words 3.全部转换为小写 4.去掉长度小于3的单词 5.去掉停用词 二、groupByKey练习 6.练习一的生成单词键值对 7.对单词进行分组 8.查看分组结果 学生科目成绩
阅读全文
posted @ 2021-03-30 12:47 落幕无华
阅读(35)
评论(0)
推荐(0)
2021年3月28日
Spark RDD编程
摘要: 1. 准备文本文件: 从文件创建RDD lines=sc.textFile(): 筛选出含某个单词的行 lines.filter(),lambda 参数:条件表达式: 2. 生成单词的列表: 从列表创建RDD words=sc.parallelize(): 筛选出长度大于2 的单词 words.fi
阅读全文
posted @ 2021-03-28 18:05 落幕无华
阅读(28)
评论(0)
推荐(0)
下一页
公告
点击右上角即可分享