摘要: 一、词频统计: 1.读文本文件生成RDD lines lines=sc.textFile("file:///usr/local/spark/mycode/rdd/word.txt") lines.foreach(print) 2.将一行一行的文本分割成单词 words flatmap() words 阅读全文
posted @ 2021-04-18 17:51 碎觉觉 阅读(76) 评论(0) 推荐(0) 编辑
摘要: Sqoop安装与使用 mysql准备接受数据的数据库与表 2.hive准备待传输的数据 3.sqoop进行数据传输 4.mysql查看传输结果 5.电子书 阅读全文
posted @ 2020-12-12 23:24 碎觉觉 阅读(75) 评论(0) 推荐(0) 编辑
摘要: 本地文件系统创建一个文件,输入带姓名学号信息。 查看新建文件所在目录 查看新建文件内容 将此文件上传到HDFS文件系统上的用户目录 HDFS上查看相应目录 HDFS上查看文件内容 HDFS上查看文件大小 删除本地1步骤创建的文件 将HDFS上的文件下载到本地 查看本地文件目录 阅读全文
posted @ 2020-10-24 19:59 碎觉觉 阅读(101) 评论(0) 推荐(0) 编辑
摘要: HDFS体系结构 写数据 读数据 阅读全文
posted @ 2020-10-19 17:56 碎觉觉 阅读(121) 评论(0) 推荐(0) 编辑
摘要: 在Ubuntu下安装MySQL及其常用操作 阅读全文
posted @ 2020-10-10 20:51 碎觉觉 阅读(83) 评论(0) 推荐(0) 编辑
摘要: 一、了解对比Hadoop不同版本的特性,可以用图表的形式呈现。 答:Apache Hadoop版本分为两代,第一代Hadoop称为Hadoop1.0,第二代Hadoop称为Hadoop2.0。第一代Hadoop包含0.20.x、0.21.x、0.22.x三大版本,其中,0.20.x最后演化成1.0. 阅读全文
posted @ 2020-09-18 11:08 碎觉觉 阅读(115) 评论(0) 推荐(0) 编辑
摘要: 1.了解微信、微博、小视频每天产生的数据量与数据类型?答:微信1月9日发布《2018微信年度数据报告》,报告显示,微信每个月有10.825亿位用户保持活跃,每个月有6300万位55岁以上的用户保持活跃。此外,每天有450亿次信息发送出2.选择一个你感兴趣的领域应用数据思维进行分析决策的案例。 答:通 阅读全文
posted @ 2020-09-12 09:29 碎觉觉 阅读(123) 评论(0) 推荐(0) 编辑