03 2022 档案
摘要:一、RDD创建 1.从本地文件系统中加载数据创建RDD 2.从HDFS加载数据创建RDD 启动hdfs 上传文件 查看文件 加载 停止hdfs 3.通过并行集合(列表)创建RDD 输入列表 字符串 numpy生成数组 二、RDD操作 转换操作 1.map(func) 显式定义函数 lambda函数
阅读全文
摘要:一、请用图文阐述Spark生态系统的组成及各组件的功能。 Spark的生态系统主要包含了Spark Core、Spark SQL、Spark Streaming、Structured Streaming、MLlib和GraphX等组件。 图1-1 Spark生态系统的组成及各组件 各个组件的具体功能
阅读全文
摘要:一、安装并配置Spark 1.首先检查一下java和hadoop的环 2.下载spark 3.解压spark安装包,对文件夹重命名,复制配置文件 4.对配置文件进行修改 3.配置好环境变量之后,进行 source ~/.bashrc 5.配置好环境之后就可以启动spark了, 6.输入python代
阅读全文
摘要:一、列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系,以图呈现并加以文字描述 1.HDFS(分布式文件系统) HDFS是hadoop体系中数据存储管理的基础。它是 Hadoop 技术体系中的核心基石,负责分布式存储数据,你可以把它理解为一个分布式的文件系统。此文件系统的主要特征是数
阅读全文
摘要:2.Hadoop与Spark之间的比较 Hadoop框架的主要模块包括如下: Hadoop Common Hadoop分布式文件系统(HDFS) Hadoop YARN Hadoop MapReduce 虽然上述四个模块构成了Hadoop的核心,不过还有其他几个模块。这些模块包括:Ambari、Av
阅读全文
浙公网安备 33010602011771号