直接开摆 - 博客园

2022年6月5日

摘要：作业一作业6链接原因:忘了交了作业六作业1链接列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系，以图呈现并加以文字描述作业 1链接 Spark和Hadoop的区别和比较作业 1链接如何实现Hadoop与Spark的统一部署原因:忘了交了阅读全文

posted @ 2022-06-05 23:03 直接开摆阅读(39) 评论(0) 推荐(0)

6. RDD综合练习：更丰富的操作

摘要：集合运算练习 union()， intersection()，subtract(), cartesian() 内连接与外连接 join(), leftOuterJoin(), rightOuterJoin(), fullOuterJoin() 多个考勤文件，签到日期汇总，出勤次数统计三、综合练习：阅读全文

posted @ 2022-06-05 22:46 直接开摆阅读(44) 评论(0) 推荐(0)

2022年5月23日

Spark综合作业

摘要：综合练习：学生课程分数网盘下载sc.txt文件，创建RDD，并转换得到DataFrame >>> lines = spark.sparkContext.textFile('file:///home/hadoop/wc/sc.txt') >>> parts = lines.map(lambda x: 阅读全文

posted @ 2022-05-23 22:08 直接开摆阅读(134) 评论(0) 推荐(0)

2022年4月25日

RDD综合练习：更丰富的操作

摘要：网盘下载sc.txt文件，通过RDD操作实现以下数据分析:一、集合运算练习 1.union()，intersection()，subtract(), cartesian() 二、内连接与外连接 1.join(), leftOuterJoin(), rightOuterJoin(), fullOute 阅读全文

posted @ 2022-04-25 21:28 直接开摆阅读(48) 评论(0) 推荐(0)

2022年4月11日

RDD操作综合实例

摘要：一、词频统计 A. 分步骤实现 1.准备文件下载小说或长篇新闻稿上传到hdfs上 2.读文件创建RDD 3.分词 4.排除大小写lower()，map() 标点符号re.split(pattern,str)，flatMap(), 停用词,可网盘下载stopwords.txt,filter()，阅读全文

posted @ 2022-04-11 22:03 直接开摆阅读(63) 评论(0) 推荐(0)

2022年3月25日

RDD操作

摘要：一、 RDD创建 1.从本地文件系统中加载数据创建RDD 2.从HDFS加载数据创建RDD 3.通过并行集合（列表）创建RDD 二、RDD操作转换操作 1.转换操作 1.filter(func) 显式定义函数 lambda函数 2.map(func) 显式定义函数 lambda函数字符串分词数阅读全文

posted @ 2022-03-25 22:29 直接开摆阅读(64) 评论(0) 推荐(0)

2022年3月12日

Spark设计与运行原理，基本操作

摘要： Spark生态圈也称为BDAS（伯克利数据分析栈），是伯克利APMLab实验室打造的，力图在算法（Algorithms）、机器（Machines）、人（People）之间通过大规模集成来展现大数据应用的一个平台。伯克利AMPLab运用大数据、云计算、通信等各种资源以及各种灵活的技术方案，对海量不透明阅读全文

posted @ 2022-03-12 20:09 直接开摆阅读(193) 评论(0) 推荐(0)

2022年3月3日

安装Spark与Python练习

摘要：一、安装Spark 检查基础环境hadoop,jdk 查看 jdk 环境 ( java -version ) 查看 hadoop环境 ( hadoop version ) 2.下载spark 3.解压，文件夹重命名、权限解压重命名赋权（可以不用） 4. 配置 Spark 环境变量 6. 试运行阅读全文

posted @ 2022-03-03 21:16 直接开摆阅读(66) 评论(0) 推荐(0)

2022年2月22日

如何实现Hadoop与Spark的统一部署

摘要：二、Hadoop部署 2.1 Hadoop安装（三台机器可同步进行）下载hadoop2.7.7（hadoop-2.7.7.tar.gz）解压 tar -zxvf hadoop-2.7.7.tar.gz ，并在主目录下创建tmp、dfs、dfs/name、dfs/node、dfs/data cd 阅读全文

posted @ 2022-02-22 11:24 直接开摆阅读(1251) 评论(0) 推荐(0)

Spark和Hadoop的区别和比较

摘要：一、两者的各方面比较二、Spark相对Hadoop的优越性三、三大分布式计算系统 Spark，是分布式计算平台，是一个用scala语言编写的计算框架，基于内存的快速、通用、可扩展的大数据分析引擎 Hadoop，是分布式管理、存储、计算的生态系统；包括HDFS（存储）、MapReduce（计算）阅读全文

posted @ 2022-02-22 11:18 直接开摆阅读(399) 评论(0) 推荐(0)