摘要: 1.分析SparkSQL出现的原因,并简述SparkSQL的起源与发展。 SparkSQL的前身是Shark,给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具,Hive应运而生,它是当时唯一运行在Hadoop上的SQL-on-Hadoop工具。但是MapReduce计算过程中 阅读全文
posted @ 2022-04-27 10:17 伽森 阅读(72) 评论(0) 推荐(0) 编辑
摘要: 持久化 scm.cache() 总共有多少学生?map(), distinct(), count() 开设了多少门课程? 每个学生选修了多少门课?map(), countByKey() 每门课程有多少个学生选?map(), countByValue() 多少个100分? Tom选修了几门课?每门课多 阅读全文
posted @ 2022-04-06 11:29 伽森 阅读(51) 评论(0) 推荐(0) 编辑
摘要: 一、词频统计 A. 分步骤实现 1、准备文件 下载小说或长篇新闻稿 上传到hdfs上 读文件创建RDD 分词 排除大小写lower(),map() .标点符号re.split(pattern,str),flatMap(), 先导入re然后用re.split分词(\W+会匹配所有非单词字符,(\W+) 阅读全文
posted @ 2022-03-30 12:54 伽森 阅读(39) 评论(0) 推荐(0) 编辑
摘要: 一、RDD创建 先启动pyspark 从本地文件系统中加载数据创建RDD,先启动hdfs,再上传 在hdfs中查看 停用hdfs 二、RDD的操作 1、转换操作 map(func)显式定义函数lambda函数 2、行动操作 3、flatMap(func) 分词 单词映射成键值对 4、reduceBy 阅读全文
posted @ 2022-03-16 11:16 伽森 阅读(26) 评论(0) 推荐(0) 编辑
摘要: 1.Spark已打造出结构一体化、功能多样化的大数据生态系统,请用图文阐述Spark生态系统的组成及各组件的功能。 1. Spark CoreSpark Core是整个BDAS的核心组件,是一种大数据分布式处理框架,不仅实现了MapReduce的算子map函数和reduce函数及计算模型,还提供如f 阅读全文
posted @ 2022-03-09 14:11 伽森 阅读(59) 评论(0) 推荐(0) 编辑
摘要: 一、安装Spark 检查基础环境hadoop,jdk 下载spark 解压,文件夹重命名、权限 配置文件 环境变量 试运行Python代码 二、Python编程练习:英文文本的词频统计 准备文本文件 读文件 预处理:大小写,标点符号,停用词 分词 统计每个单词出现的次数 按词频大小排序 结果写文件 阅读全文
posted @ 2022-03-02 11:54 伽森 阅读(43) 评论(0) 推荐(0) 编辑
摘要: 1、列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系,以图呈现并加以文字描述。 一、HDFS分布式文件系统 Hadoop分布式文件系统HDFS是针对谷歌分布式文件系统的开源实现,它是Hadoop两大核心组成部分之一,提供了在廉价服务器集群中进行大规模分布式文件存储的能力。 HDFS 阅读全文
posted @ 2022-02-23 11:04 伽森 阅读(51) 评论(0) 推荐(0) 编辑