03 2022 档案

摘要:一、 RDD创建 从本地文件系统中加载数据创建RDD 2.从HDFS加载数据创建RDD启动hdfs上传文件查看文件加载停止hdfs 3.通过并行集合(列表)创建RDD输入列表、字符串、生成数组 二、 RDD操作 转换操作 filter(func)传入lambda匿名函数显式定义函数 2.map(fu 阅读全文
posted @ 2022-03-27 20:05 张玲玲 阅读(17) 评论(0) 推荐(0)
摘要:1.Spark已打造出结构一体化、功能多样化的大数据生态系统,请用图文阐述Spark生态系统的组成及各组件的功能。 Spark生态系统(BDAS)图 组件介绍 1 . Spark Core:Spark的核心组件,其操作的数据对象是RDD(弹性分布式数据集)图中在Spark Core上面的四个组件都依 阅读全文
posted @ 2022-03-09 22:48 张玲玲 阅读(61) 评论(0) 推荐(0)
摘要:一、安装Spark 1、检查基础环境hadoop,jdk 2、下载spark 3、环境变量 二、Python编程练习:英文文本的词频统计 准备文本文件(1.txt与2.txt相同) #文本内容May you have enough happiness to make you sweet,enough 阅读全文
posted @ 2022-03-04 00:04 张玲玲 阅读(54) 评论(0) 推荐(0)