Baby_Monster

2022年5月11日

摘要： 1.请分析sparkSQL出现的原因，并简述SparkSQL的起源和发展 1.1 出现的原因 1.关系数据库已经很流行 2.关系数据库在大数据时代已经不能满足要求•首先，用户需要从不同数据源执行各种操作，包括结构化、半结构化和非结构化数据。其次，用户需要执行高级分析，比如机器学习和图像处理•在实际大阅读全文

posted @ 2022-05-11 20:59 Baby_Monster 阅读(134) 评论(0) 推荐(0)

2022年4月20日

RDD综合练习：更丰富的操作

摘要：集合运算练习 union()， intersection()，subtract(), cartesian() rdd1=sc.parallelize('abcd') rdd2=sc.parallelize('bcde') rdd1.collect() rdd2.collect() rdd1.unio 阅读全文

posted @ 2022-04-20 15:29 Baby_Monster 阅读(86) 评论(0) 推荐(0)

2022年4月7日

RDD操作综合实例

摘要：一、词频统计 A. 分步骤实现准备文件下载小说或长篇新闻稿上传到hdfs上 hdfs dfs -put ./data/my.txt ./ hdfs dfs -ls ./ 读文件创建RDD lines=sc.textFile("hdfs://localhost:9000/user/hjq/my. 阅读全文

posted @ 2022-04-07 21:26 Baby_Monster 阅读(112) 评论(0) 推荐(0)

2022年3月19日

RDD操作

摘要： RDD创建从本地文件系统中加载数据创建RDD 1、启动spark pyspark 从文件系统中加载数据创建RDD sc #SparkContext的创建 lines = sc.textFile("file:///home/hjq/data/text.txt") lines lines.foreac 阅读全文

posted @ 2022-03-19 21:43 Baby_Monster 阅读(134) 评论(0) 推荐(0)

2022年3月15日

Spark设计与运行原理，基本操作

摘要： Spark已打造出结构一体化、功能多样化的大数据生态系统，请用图文阐述Spark生态系统的组成及各组件的功能。组件介绍 Spark Core： Spark的核心组件，其操作的数据对象是RDD（弹性分布式数据集），图中在Spark Core上面的四个组件都依赖于Spark Core，可以简单认为Sp 阅读全文

posted @ 2022-03-15 14:41 Baby_Monster 阅读(89) 评论(0) 推荐(0)

2022年3月8日

安装Spark与Python练习

摘要：一、安装Spark 1、检查基础环境hadoop,jdk echo $JAVA_HOME java -version start-dfs.sh jps 2、下载、解压、配置spark 此步骤实验前已经完成，故跳过。 3、环境变量 gedit ~/.bashrc #编辑 source ~/.bashr 阅读全文

posted @ 2022-03-08 17:43 Baby_Monster 阅读(72) 评论(0) 推荐(0)

2022年3月1日

大数据概述

摘要：一、列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系，以图呈现并加以文字描述 1、HDFS（hadoop分布式文件系统）是hadoop体系中数据存储管理的基础。他是一个高度容错的系统，能检测和应对硬件故障。 client：切分文件，访问HDFS，与namenode交互，获取文件位阅读全文

posted @ 2022-03-01 14:42 Baby_Monster 阅读(64) 评论(0) 推荐(0)

求包养QAQ

公告