摘要: 共补交2,4,5,6,7的作业 原因:之前没注意交作业的时间不小心错过了 作业2:安装Sprk与Python练习 一、安装Spark 1.检查基础环境hadoop, 2.下载spark 3.解压,文件夹重命名、权限 4.配置文件 5.环境变量 6.试运行Python代码 二、Python编程练习:英 阅读全文
posted @ 2022-06-05 22:08 蓝晓群 阅读(43) 评论(0) 推荐(0) 编辑
摘要: 1..Spark已打造出结构一体化、功能多样化的大数据生态系统,请用图文阐述Spark生态系统的组成及各组件的功能。 (1) Spark CoreSpark Core是整个BDAS的核心组件,是一种大数据分布式处理框架,不仅实现了MapReduce的算子map函数和reduce函数及计算模型,还提供 阅读全文
posted @ 2022-03-15 20:44 蓝晓群 阅读(36) 评论(0) 推荐(0) 编辑
摘要: 1.(1)HDFS(hadoop分布式文件系统)是hadoop体系中数据存储管理的基础。它是一个高度容错的系统,能检测和应对硬件故障。 (2)mapreduce(分布式计算框架)mapreduce是一种计算模型,用于处理大数据量的计算。其中map对应数据集上的独立元素进行指定的操作,生成键-值对形式 阅读全文
posted @ 2022-02-27 21:52 蓝晓群 阅读(35) 评论(0) 推荐(0) 编辑