03 2022 档案
摘要:一、 RDD创建 1.从本地文件系统中加载数据创建RDD 2.从HDFS加载数据创建RDD 2.1启动hdfs 2.2上传文件 2.3查看文件 2.4加载 2.5停止hdfs 3.通过并行集合(列表)创建RDD 3.1输入列表 3.2字符串 3.3numpy生成数组 二、 RDD操作 1.转换操作
阅读全文
摘要:1、图文阐述Spark生态系统的组成及各组件的功能。 Spark生态圈即BDAS.Spark具有很强的适应性,能够读取HDFS、Cassandra、HBase、S3和Techyon为持久层读写原生数据,能够以Mesos、YARN和自身携带的Standalone作为资源管理器调度job,来完成Spar
阅读全文
摘要:一、安装Spark 1、检查基础环境hadoop,jdk 2、下载spark 3、解压,文件夹重命名、权限 4、配置文件 配置spark的classpath $ cd /usr/local/spark $ cp ./conf/spark-env.sh.template ./conf/spark-en
阅读全文