摘要: 一、安装Spark 检查基础环境hadoop,jdk 下载spark 解压,文件夹重命名、权限(已安装没有图) 配置文件(已安装没有图) 环境变量(已安装没有图) 6.试运行Python代码 二、Python编程练习:英文文本的词频统计 思想 准备文本文件 读文件 预处理:大小写,标点符号,停用词 阅读全文
posted @ 2022-06-07 20:12 Little。小盼 阅读(22) 评论(0) 推荐(0)
摘要: 1.列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系,以图呈现并加以文字描述。 1.HDFS(分布式文件系统) HDFS是Hadoop两大核心组成部分之一,提供了在廉价服务器集群中进行大规模分布式文件存储的能力。 2.YARN(资源调度和管理框架) YARN 是负责集群资源调度管理 阅读全文
posted @ 2022-06-07 20:12 Little。小盼 阅读(89) 评论(0) 推荐(0)
摘要: 1、图文阐述Spark生态系统的组成及各组件的功能。 1.1、Spark Core: Spark核心组件,它实现了Spark的基本功能,包含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark Core中还包含了对弹性分布式数据集(Resilient Distributed Dataset 阅读全文
posted @ 2022-06-07 20:11 Little。小盼 阅读(21) 评论(0) 推荐(0)
摘要: 一、 RDD创建 1. 从本地文件系统中加载数据创建RDD sc:SparkContext的创建 从文件系统中加载数据创建RDD >> lines = sc.textFile("file://root/DesKtop/my.txt") >> lines >> lines.foreach(print) 阅读全文
posted @ 2022-06-07 20:09 Little。小盼 阅读(82) 评论(0) 推荐(0)
摘要: 集合运算练习 union(), intersection(),subtract(), cartesian() 内连接与外连接 join(), leftOuterJoin(), rightOuterJoin(), fullOuterJoin() 多个考勤文件,签到日期汇总,出勤次数统计 三、综合练习: 阅读全文
posted @ 2022-04-15 14:18 Little。小盼 阅读(29) 评论(0) 推荐(0)
摘要: 一、词频统计 A. 分步骤实现 1.准备文件 1.下载小说或长篇新闻稿 2、读文件创建RDD 3.分词 4.排除大小写lower(),map() 停用词,可网盘下载stopwords.txt,filter(), 长度小于2的词filter() 5.统计词频 6.按词频排序 7.输出到文件 8.查看结 阅读全文
posted @ 2022-04-07 21:32 Little。小盼 阅读(24) 评论(0) 推荐(0)