摘要: ```python from pyspark import SparkConf, SparkContext conf = SparkConf().setMaster("local").setAppName("My App") sc=SparkContext(conf=conf) url = "fil 阅读全文
posted @ 2022-05-27 19:31 侨少 阅读(82) 评论(0) 推荐(0)
摘要: 1.分析SparkSQL出现的原因,并简述SparkSQL的起源与发展。 ->SparkSQL的前身Shark对于Hive的太多依赖(如采用Hive的语法解析器、查询优化器等等),制约了Spark的One Stack Rule Them All的既定方针,制约了Spark各个组件的相互集成,所以提出 阅读全文
posted @ 2022-05-11 19:51 侨少 阅读(33) 评论(0) 推荐(0)
摘要: 集合运算练习 union(), intersection(),subtract(), cartesian() 三、学生课程分数 网盘下载sc.txt文件,通过RDD操作实现以下数据分 持久化 stu.cache() 总共有多少学生?map(), distinct(), count() 开设了多少门课 阅读全文
posted @ 2022-04-11 16:16 侨少 阅读(43) 评论(0) 推荐(0)
摘要: 准备文件,上传到hdfs上 读文件创建RDD 分词 排除大小写,标点符号 统计词频 排序 输出到文件 查看结果 B.一句话实现 二TOP值 新建txt文件,将文件传上hdfs 将金额映射成键值对,注意values值为int类型 对文件进行分词、去标点操作 对键值对进行累加统计、排序 输出文件 查看结 阅读全文
posted @ 2022-03-31 16:29 侨少 阅读(55) 评论(0) 推荐(0)
摘要: 1、从本地文件系统中加载数据创建RDD 2.从HDFS加载数据创建RDD启动hdfs,然后上传文件 (3)flatMap(func) HDFS加载数据创建RDD 停止hdfs 3.通过并行集合(列表)创建RDD 1.输入列表,字符串,生成 2. RDD操作 1.转换操作 (1)filter(func 阅读全文
posted @ 2022-03-21 20:01 侨少 阅读(21) 评论(0) 推荐(0)
摘要: 3.Spark设计与运行原理,基本操作 一、Spark已打造出结构一体化、功能多样化的大数据生态系统,请用图文阐述Spark生态系统的组成及各组件的功能。 答:Spark的设计遵循“一个软件栈满足不同应用场景”的理念,逐渐形成一套完整生态系统,既能够提供内存计算框架,也可以支持SQL即席查询、实时流 阅读全文
posted @ 2022-03-14 02:14 侨少 阅读(128) 评论(0) 推荐(0)
摘要: 一、安装Spark 检查基础环境hadoop,jdk 配置文件 环境变量 试运行Python代码 二、Python编程练习:英文文本的词频统计 准备文本文件 读文件 预处理:大小写,标点符号,停用词 分词 统计每个单词出现的次数 按词频大小排序 结果写文件 阅读全文
posted @ 2022-03-07 00:40 侨少 阅读(43) 评论(0) 推荐(0)
摘要: 1.列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系,以图呈现并加以文字描述。 Hadoop是目前应用最为广泛的分布式大数据处理框架,其具备可靠、高效、可伸缩等特点 Hadoop的核心组件是HDFS、MapReduce。随着处理任务不同,各种组件相继出现,丰富Hadoop生态圈,目 阅读全文
posted @ 2022-02-24 14:30 侨少 阅读(134) 评论(0) 推荐(0)