伽森 - 博客园

2022年4月27日

摘要： 1.分析SparkSQL出现的原因，并简述SparkSQL的起源与发展。 SparkSQL的前身是Shark，给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具，Hive应运而生，它是当时唯一运行在Hadoop上的SQL-on-Hadoop工具。但是MapReduce计算过程中阅读全文

posted @ 2022-04-27 10:17 伽森阅读(72) 评论(0) 推荐(0) 编辑

2022年4月6日

RDD综合练习：更丰富的操作

摘要：持久化 scm.cache() 总共有多少学生？map(), distinct(), count() 开设了多少门课程？每个学生选修了多少门课？map(), countByKey() 每门课程有多少个学生选？map(), countByValue() 多少个100分？ Tom选修了几门课？每门课多阅读全文

posted @ 2022-04-06 11:29 伽森阅读(51) 评论(0) 推荐(0) 编辑

2022年3月30日

5.RDD操作综合实例

摘要：一、词频统计 A. 分步骤实现 1、准备文件下载小说或长篇新闻稿上传到hdfs上读文件创建RDD 分词排除大小写lower()，map() .标点符号re.split(pattern,str)，flatMap(), 先导入re然后用re.split分词(\W+会匹配所有非单词字符,(\W+) 阅读全文

posted @ 2022-03-30 12:54 伽森阅读(39) 评论(0) 推荐(0) 编辑

2022年3月16日

RDD操作

摘要：一、RDD创建先启动pyspark 从本地文件系统中加载数据创建RDD，先启动hdfs，再上传在hdfs中查看停用hdfs 二、RDD的操作 1、转换操作 map(func)显式定义函数lambda函数 2、行动操作 3、flatMap(func) 分词单词映射成键值对 4、reduceBy 阅读全文

posted @ 2022-03-16 11:16 伽森阅读(26) 评论(0) 推荐(0) 编辑

2022年3月9日

3.Spark设计与运行原理，基本操作

摘要： 1.Spark已打造出结构一体化、功能多样化的大数据生态系统，请用图文阐述Spark生态系统的组成及各组件的功能。 1. Spark CoreSpark Core是整个BDAS的核心组件，是一种大数据分布式处理框架，不仅实现了MapReduce的算子map函数和reduce函数及计算模型，还提供如f 阅读全文

posted @ 2022-03-09 14:11 伽森阅读(59) 评论(0) 推荐(0) 编辑

2022年3月2日

安装Spark与Python练习

摘要：一、安装Spark 检查基础环境hadoop,jdk 下载spark 解压，文件夹重命名、权限配置文件环境变量试运行Python代码二、Python编程练习：英文文本的词频统计准备文本文件读文件预处理：大小写，标点符号，停用词分词统计每个单词出现的次数按词频大小排序结果写文件阅读全文

posted @ 2022-03-02 11:54 伽森阅读(43) 评论(0) 推荐(0) 编辑

2022年2月23日

1.大数据概述

摘要： 1、列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系，以图呈现并加以文字描述。一、HDFS分布式文件系统 Hadoop分布式文件系统HDFS是针对谷歌分布式文件系统的开源实现，它是Hadoop两大核心组成部分之一，提供了在廉价服务器集群中进行大规模分布式文件存储的能力。 HDFS 阅读全文

posted @ 2022-02-23 11:04 伽森阅读(51) 评论(0) 推荐(0) 编辑

伽森

公告