刘淑婷

03 2022 档案

4.RDD操作
摘要:1. RDD创建 从本地文件系统中加载数据创建RDD 图1.1 查看文本信息 图1.2 本地文件加载数据 从HDFS加载数据创建RDD # 启动HDFS start-all.sh # 查看HDFS文件 hdfs dfs -ls 查看的文件目录 图2.1 启动HDFS # 上传文件到HDFS hdfs 阅读全文

posted @ 2022-03-18 19:16 树亭 阅读(40) 评论(0) 推荐(0)

3.Spark设计与运行原理,基本操作
摘要:1.Spark已打造出结构一体化、功能多样化的大数据生态系统,请用图文阐述Spark生态系统的组成及各组件的功能。 1、Spark Core:Spark的核心组件,其操作的数据对象是RDD(弹性分布式数据集)可以简单认为Spark Core就是Spark生态系统中的离线计算框架。 2、 Spark 阅读全文

posted @ 2022-03-09 14:59 树亭 阅读(147) 评论(0) 推荐(0)

2.安装Spark与Python练习
摘要:一、安装Spark 检查基础环境hadoop,jdk 配置文件、 环境变量 #配置环境 vim /usr/local/spark/conf/spark-env.sh # 修改环境变量 vim ~/.bashrc # 生效 source ~/.bashrc 试运行python代码 二、Python编程 阅读全文

posted @ 2022-03-06 16:12 树亭 阅读(45) 评论(0) 推荐(1)

导航