2022 年 3月随笔档案 - 树亭

4.RDD操作

摘要：1. RDD创建从本地文件系统中加载数据创建RDD 图1.1 查看文本信息图1.2 本地文件加载数据从HDFS加载数据创建RDD # 启动HDFS start-all.sh # 查看HDFS文件 hdfs dfs -ls 查看的文件目录图2.1 启动HDFS # 上传文件到HDFS hdfs 阅读全文

posted @ 2022-03-18 19:16 树亭阅读(40) 评论(0) 推荐(0)

3.Spark设计与运行原理，基本操作

摘要：1.Spark已打造出结构一体化、功能多样化的大数据生态系统，请用图文阐述Spark生态系统的组成及各组件的功能。 1、Spark Core：Spark的核心组件，其操作的数据对象是RDD（弹性分布式数据集）可以简单认为Spark Core就是Spark生态系统中的离线计算框架。 2、 Spark 阅读全文

posted @ 2022-03-09 14:59 树亭阅读(147) 评论(0) 推荐(0)

2.安装Spark与Python练习

摘要：一、安装Spark 检查基础环境hadoop,jdk 配置文件、环境变量 #配置环境 vim /usr/local/spark/conf/spark-env.sh # 修改环境变量 vim ~/.bashrc # 生效 source ~/.bashrc 试运行python代码二、Python编程阅读全文

posted @ 2022-03-06 16:12 树亭阅读(45) 评论(0) 推荐(1)

刘淑婷

03 2022 档案

4.RDD操作

3.Spark设计与运行原理，基本操作

2.安装Spark与Python练习

导航

公告