摘要:
一、安装Spark 检查基础环境hadoop,jdk 下载spark 解压,文件夹重命名、权限(已安装没有图) 配置文件(已安装没有图) 环境变量(已安装没有图) 6.试运行Python代码 二、Python编程练习:英文文本的词频统计 思想 准备文本文件 读文件 预处理:大小写,标点符号,停用词 阅读全文
posted @ 2022-06-07 20:12
Little。小盼
阅读(22)
评论(0)
推荐(0)
摘要:
1.列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系,以图呈现并加以文字描述。 1.HDFS(分布式文件系统) HDFS是Hadoop两大核心组成部分之一,提供了在廉价服务器集群中进行大规模分布式文件存储的能力。 2.YARN(资源调度和管理框架) YARN 是负责集群资源调度管理 阅读全文
posted @ 2022-06-07 20:12
Little。小盼
阅读(89)
评论(0)
推荐(0)
摘要:
1、图文阐述Spark生态系统的组成及各组件的功能。 1.1、Spark Core: Spark核心组件,它实现了Spark的基本功能,包含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark Core中还包含了对弹性分布式数据集(Resilient Distributed Dataset 阅读全文
posted @ 2022-06-07 20:11
Little。小盼
阅读(21)
评论(0)
推荐(0)
摘要:
一、 RDD创建 1. 从本地文件系统中加载数据创建RDD sc:SparkContext的创建 从文件系统中加载数据创建RDD >> lines = sc.textFile("file://root/DesKtop/my.txt") >> lines >> lines.foreach(print) 阅读全文
posted @ 2022-06-07 20:09
Little。小盼
阅读(82)
评论(0)
推荐(0)