2022年6月5日
摘要: 作业一 作业6链接 原因:忘了交了 作业六 作业1链接 列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系,以图呈现并加以文字描述作业 1链接 Spark和Hadoop的区别和比较作业 1链接 如何实现Hadoop与Spark的统一部署 原因:忘了交了 阅读全文
posted @ 2022-06-05 23:03 直接开摆 阅读(18) 评论(0) 推荐(0) 编辑
摘要: 集合运算练习 union(), intersection(),subtract(), cartesian() 内连接与外连接 join(), leftOuterJoin(), rightOuterJoin(), fullOuterJoin() 多个考勤文件,签到日期汇总,出勤次数统计 三、综合练习: 阅读全文
posted @ 2022-06-05 22:46 直接开摆 阅读(23) 评论(0) 推荐(0) 编辑
  2022年5月23日
摘要: 综合练习:学生课程分数 网盘下载sc.txt文件,创建RDD,并转换得到DataFrame >>> lines = spark.sparkContext.textFile('file:///home/hadoop/wc/sc.txt') >>> parts = lines.map(lambda x: 阅读全文
posted @ 2022-05-23 22:08 直接开摆 阅读(111) 评论(0) 推荐(0) 编辑
  2022年4月25日
摘要: 网盘下载sc.txt文件,通过RDD操作实现以下数据分析:一、集合运算练习 1.union(),intersection(),subtract(), cartesian() 二、内连接与外连接 1.join(), leftOuterJoin(), rightOuterJoin(), fullOute 阅读全文
posted @ 2022-04-25 21:28 直接开摆 阅读(30) 评论(0) 推荐(0) 编辑
  2022年4月11日
摘要: 一、词频统计 A. 分步骤实现 1.准备文件 下载小说或长篇新闻稿 上传到hdfs上 2.读文件创建RDD 3.分词 4.排除大小写lower(),map() 标点符号re.split(pattern,str),flatMap(), 停用词,可网盘下载stopwords.txt,filter(), 阅读全文
posted @ 2022-04-11 22:03 直接开摆 阅读(32) 评论(0) 推荐(0) 编辑
  2022年3月25日
摘要: 一、 RDD创建 1.从本地文件系统中加载数据创建RDD 2.从HDFS加载数据创建RDD 3.通过并行集合(列表)创建RDD 二、RDD操作 转换操作 1.转换操作 1.filter(func) 显式定义函数 lambda函数 2.map(func) 显式定义函数 lambda函数 字符串分词 数 阅读全文
posted @ 2022-03-25 22:29 直接开摆 阅读(47) 评论(0) 推荐(0) 编辑
  2022年3月12日
摘要: Spark生态圈也称为BDAS(伯克利数据分析栈),是伯克利APMLab实验室打造的,力图在算法(Algorithms)、机器(Machines)、人(People)之间通过大规模集成来展现大数据应用的一个平台。伯克利AMPLab运用大数据、云计算、通信等各种资源以及各种灵活的技术方案,对海量不透明 阅读全文
posted @ 2022-03-12 20:09 直接开摆 阅读(150) 评论(0) 推荐(0) 编辑
  2022年3月3日
摘要: 一、安装Spark 检查基础环境hadoop,jdk 查看 jdk 环境 ( java -version ) 查看 hadoop环境 ( hadoop version ) 2.下载spark 3.解压,文件夹重命名、权限 解压 重命名 赋权(可以不用) 4. 配置 Spark 环境变量 6. 试运行 阅读全文
posted @ 2022-03-03 21:16 直接开摆 阅读(44) 评论(0) 推荐(0) 编辑
  2022年2月22日
摘要: 二、Hadoop部署 2.1 Hadoop安装(三台机器可同步进行) 下载hadoop2.7.7(hadoop-2.7.7.tar.gz) 解压 tar -zxvf hadoop-2.7.7.tar.gz ,并在主目录下创建tmp、dfs、dfs/name、dfs/node、dfs/data cd 阅读全文
posted @ 2022-02-22 11:24 直接开摆 阅读(1000) 评论(0) 推荐(0) 编辑
摘要: 一、 两者的各方面比较 二、Spark相对Hadoop的优越性 三、三大分布式计算系统 Spark,是分布式计算平台,是一个用scala语言编写的计算框架,基于内存的快速、通用、可扩展的大数据分析引擎 Hadoop,是分布式管理、存储、计算的生态系统;包括HDFS(存储)、MapReduce(计算) 阅读全文
posted @ 2022-02-22 11:18 直接开摆 阅读(303) 评论(0) 推荐(0) 编辑