会员
众包
新闻
博问
闪存
赞助商
Trae
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
嘛意思
博客园
首页
新随笔
联系
管理
订阅
随笔- 19 文章- 0 评论- 3 阅读-
2574
2021年6月7日
期末大作业
摘要: 1.选择使用什么数据,有哪些字段,多大数据量。 答:使用美国新冠的数据。里面有字段:date,county,state,cases,deaths。一共有158981条数据。 2.准备分析哪些问题?(8个以上) (1). 统计美国截止每日的累计确诊人数和累计死亡人数。 (2). 统计美国每日的新增确诊
阅读全文
posted @ 2021-06-07 19:45 嘛意思
阅读(63)
评论(0)
推荐(0)
2021年5月31日
spark连接mysql数据库
摘要: 1.安装启动检查Mysql服务。netstat -tunlp (3306) 2.spark 连接mysql驱动程序。–cp /usr/local/hive/lib/mysql-connector-java-5.1.40-bin.jar /usr/local/spark/jars 3.启动 Mysql
阅读全文
posted @ 2021-05-31 20:32 嘛意思
阅读(486)
评论(0)
推荐(0)
2021年5月20日
学生课程分数的Spark SQL分析
摘要: 读学生课程分数文件chapter4-data01.txt,创建DataFrame。 一、用DataFrame的操作完成以下数据分析要求 url = "file:///home/hadoop/chapter4-data01.txt" rdd = spark.sparkContext.textFile(
阅读全文
posted @ 2021-05-20 20:28 嘛意思
阅读(126)
评论(2)
推荐(0)
2021年5月14日
从RDD创建DataFrame
摘要: 1.pandas df 与 spark df的相互转换 df_s=spark.createDataFrame(df_p) df_p=df_s.toPandas() import pandas as pd import numpy as np arr = np.arange(6).reshape(-1
阅读全文
posted @ 2021-05-14 11:28 嘛意思
阅读(116)
评论(0)
推荐(0)
2021年5月10日
Spark SQL 及其DataFrame的基本操作
摘要: 1.Spark SQL出现的 原因是什么? Spark SQL出现是因为关系数据库已经不能满足各种在大数据时代新增的用户需求。首先,用户需要在不同的结构化和非结构化数据中执行各种操作。其次,用户需要执行像机器学习和图像处理等等高级分析,在实际应用中,也经常需要融合关系查询和分析复杂算法。 2.用sp
阅读全文
posted @ 2021-05-10 21:44 嘛意思
阅读(110)
评论(0)
推荐(0)
2021年4月18日
RDD编程
摘要: 一、词频统计: 1.读文本文件生成RDD lines lines = sc.textFile('file:///home/hadoop/file') lines.collect() 2.将一行一行的文本分割成单词 words flatmap() words=lines.flatMap(lambda
阅读全文
posted @ 2021-04-18 22:44 嘛意思
阅读(144)
评论(1)
推荐(0)
2021年4月5日
RDD练习:词频统计
摘要: 一、词频统计: 1.读文本文件生成RDD lines 2.将一行一行的文本分割成单词 words flatmap() 3.全部转换为小写 lower() 4.去掉长度小于3的单词 filter() 5.去掉停用词 6.转换成键值对 map() 7.统计词频 reduceByKey() 二、学生课程分
阅读全文
posted @ 2021-04-05 20:37 嘛意思
阅读(45)
评论(0)
推荐(0)
2021年3月31日
RDD编程练习
摘要: 一、filter,map,flatmap练习: 1.读文本文件生成RDD lines 2.将一行一行的文本分割成单词 words 3.全部转换为小写 4.去掉长度小于3的单词 5.去掉停用词 二、groupByKey练习 6.练习一的生成单词键值对 7.对单词进行分组 8.查看分组结果 学生科目成绩
阅读全文
posted @ 2021-03-31 21:11 嘛意思
阅读(45)
评论(0)
推荐(0)
2021年3月27日
第二次作业 Spark RDD编程
摘要: 1.准备文本文件,从文件创建RDD lines=sc.textFile(),筛选出含某个单词的行 lines.filter(),lambda 参数:条件表达式 2.生成单词的列表,从列表创建RDD words=sc.parallelize(),筛选出长度大于2 的单词 words.filter()
阅读全文
posted @ 2021-03-27 21:52 嘛意思
阅读(72)
评论(0)
推荐(0)
2021年3月13日
第一次作业 Spark架构与运行流程
摘要: 1. 阐述Hadoop生态系统中,HDFS, MapReduce, Yarn, Hbase及Spark的相互关系,为什么要引入Yarn和Spark。 HDFS是Hadoop体系中数据存储管理的基础,它是一个高度容错的系统,能检测和应对硬件故障,在低成本的通用硬件上运行。 HBase构建在HDFS之上
阅读全文
posted @ 2021-03-13 22:43 嘛意思
阅读(134)
评论(0)
推荐(0)
下一页
公告
昵称:
嘛意思
园龄:
4年11个月
粉丝:
0
关注:
0
<
2025年8月
>
日
一
二
三
四
五
六
27
28
29
30
31
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
1
2
3
4
5
6
搜索
常用链接
我的随笔
我的评论
我的参与
最新评论
我的标签
更多链接
随笔档案
2021年6月(1)
2021年5月(4)
2021年4月(2)
2021年3月(3)
2020年12月(3)
2020年11月(1)
2020年10月(3)
2020年9月(2)
阅读排行榜
1. 第五次作业 HDFG操作命令(528)
2. spark连接mysql数据库(486)
3. 第二次作业 Hadoop演进与Hadoop生态(150)
4. RDD编程(144)
5. 第一次作业 Spark架构与运行流程(134)
评论排行榜
1. 学生课程分数的Spark SQL分析(2)
2. RDD编程(1)
最新评论
1. Re:学生课程分数的Spark SQL分析
啊吧啊吧
--当一手偷男很舒服
2. Re:学生课程分数的Spark SQL分析
就这就这就这?
--当一手偷男很舒服
3. Re:RDD编程
你这家伙下载不了就不做了?你这个noob!
--就TM你叫Henry啊?
点击右上角即可分享