2022 年 3月随笔档案 - 一晚上两本寒假作业

RDD操作

摘要：一、RDD创建 1.从本地文件系统中加载数据创建RDD 2.从HDFS加载数据创建RDD 启动hdfs 上传文件查看文件加载停止hdfs 3.通过并行集合（列表）创建RDD 输入列表字符串 numpy生成数组二、RDD操作转换操作 1.map(func) 显式定义函数 lambda函数阅读全文

posted @ 2022-03-29 19:26 一晚上两本寒假作业阅读(16) 评论(0) 推荐(0)

Spark设计与运行原理，基本操作

摘要：一、请用图文阐述Spark生态系统的组成及各组件的功能。 Spark的生态系统主要包含了Spark Core、Spark SQL、Spark Streaming、Structured Streaming、MLlib和GraphX等组件。图1-1 Spark生态系统的组成及各组件各个组件的具体功能阅读全文

posted @ 2022-03-15 19:06 一晚上两本寒假作业阅读(100) 评论(0) 推荐(0)

安装spark和python练习

摘要：一、安装并配置Spark 1.首先检查一下java和hadoop的环 2.下载spark 3.解压spark安装包，对文件夹重命名，复制配置文件 4.对配置文件进行修改 3.配置好环境变量之后，进行 source ~/.bashrc 5.配置好环境之后就可以启动spark了， 6.输入python代阅读全文

posted @ 2022-03-08 00:25 一晚上两本寒假作业阅读(42) 评论(0) 推荐(0)

大数据概述总

摘要：一、列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系，以图呈现并加以文字描述 1.HDFS（分布式文件系统） HDFS是hadoop体系中数据存储管理的基础。它是 Hadoop 技术体系中的核心基石，负责分布式存储数据，你可以把它理解为一个分布式的文件系统。此文件系统的主要特征是数阅读全文

posted @ 2022-03-02 14:52 一晚上两本寒假作业阅读(69) 评论(0) 推荐(0)

大数据概述2

摘要：2.Hadoop与Spark之间的比较 Hadoop框架的主要模块包括如下： Hadoop Common Hadoop分布式文件系统(HDFS) Hadoop YARN Hadoop MapReduce 虽然上述四个模块构成了Hadoop的核心，不过还有其他几个模块。这些模块包括：Ambari、Av 阅读全文

posted @ 2022-03-02 14:49 一晚上两本寒假作业阅读(53) 评论(0) 推荐(0)

03 2022 档案

公告