03 2022 档案

摘要:一、 RDD创建 从本地文件系统中加载数据创建RDD sc:SparkContext(shell自动创建) 本地文件系统中加载数据创建RDD Spark采用textFile()方法来从文件系统中加载数据创建RDD 该方法把文件的URI作为参数,这个URI可以是: 本地文件系统的地址 或者是分布式文件 阅读全文
posted @ 2022-03-30 18:03 stu(dying) 阅读(259) 评论(0) 推荐(0)
摘要:一、机器准备 首先准备三台机器: 我是一台WINDOWS系统主机,在WINDOWS里的 VMware 中安装两台Ubuntu系统虚拟机 如果你的虚拟机只有 CentOS,可以参考这篇文章:https://www.cnblogs.com/qwg-/p/13237210.html VMware 中如何克 阅读全文
posted @ 2022-03-21 02:26 stu(dying) 阅读(1878) 评论(0) 推荐(6)
摘要:1.Spark已打造出结构一体化、功能多样化的大数据生态系统,请用图文阐述Spark生态系统的组成及各组件的功能。 Spark生态系统主要包含Spark Core、Spark SQL、Spark Streaming、MLib、GraphX以及独立调度器,下面对上述组件进行一一介绍。 (1)Spark 阅读全文
posted @ 2022-03-15 17:08 stu(dying) 阅读(202) 评论(0) 推荐(0)
摘要:一、安装Spark 《Spark2.4.0入门:Spark的安装和使用》 博客地址:http://dblab.xmu.edu.cn/blog/1307-2/ 1.1 基础环境 1.1.1 安装Spark之前需要安装: Linux系统 Java环境(Java8或JDK1.8以上版本) Hadoop环境 阅读全文
posted @ 2022-03-08 18:59 stu(dying) 阅读(229) 评论(0) 推荐(0)
摘要:一、列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系,以图呈现并加以文字描述 1. HDFS(Hadoop分布式文件系统) Hadoop分布式文件系统是Hadoop项目的两大核心之一,是针对谷歌文件系统(GoogleFileSystem,GFS)的开源实现。 HDFS具有处理超大数 阅读全文
posted @ 2022-03-01 19:27 stu(dying) 阅读(201) 评论(0) 推荐(0)