Ls1ion

2022年5月19日

该文被密码保护。阅读全文

posted @ 2022-05-19 01:29 Ls1ion 阅读(73) 评论(0) 推荐(0)

2022年4月27日

摘要： 1.分析SparkSQL出现的原因，并简述SparkSQL的起源与发展。 Spark SQL是Spark用来处理结构化数据的一个模块，它提供了一个叫作Data Frame的编程抽象结构数据模型(即带有Schema信息的RDD)，Spark SQL作为分布式SQL查询引擎，让用户可以通过SQL、Dat 阅读全文

posted @ 2022-04-27 10:03 Ls1ion 阅读(117) 评论(0) 推荐(0)

2022年4月6日

6. RDD综合练习：更丰富的操作

摘要：三、学生课程分数持久化 stu.cache() 总共有多少学生？map(), distinct(), count() 开设了多少门课程？生成（姓名，课程分数）键值对RDD，观察keys(),values() 每个学生选修了多少门课？map(), countByKey() 每门课程有多少个学生选？阅读全文

posted @ 2022-04-06 14:50 Ls1ion 阅读(105) 评论(0) 推荐(0)

2022年3月30日

5.RDD操作综合实例

摘要：一、词频统计 A. 分步骤实现 1、准备文件下载小说或长篇新闻稿上传到hdfs上 2、读文件创建RDD 3、分词 4、排除大小写lower()，map() 标点符号re.split(pattern,str)，flatMap(), 停用词,stopwords.txt,filter()，长度小于2 阅读全文

posted @ 2022-03-30 11:43 Ls1ion 阅读(64) 评论(0) 推荐(0)

2022年3月16日

4.RDD操作

摘要：一、 RDD创建 1、从本地文件系统中加载数据创建RDD （1）创建SparkContext：（2）从本地文件系统中加载数据创建RDD：（3）对比原文件： 2、从HDFS加载数据创建RDD （1）启动hdfs：（2）上传文件：（3）查看文件：（4）加载：（5）停止hdfs： 3、通过并行阅读全文

posted @ 2022-03-16 11:12 Ls1ion 阅读(57) 评论(0) 推荐(0)

2022年3月9日

3.Spark设计与运行原理，基本操作

摘要： 1.Spark已打造出结构一体化、功能多样化的大数据生态系统，请用图文阐述Spark生态系统的组成及各组件的功能。 Spark Core： Spark Core 是整个BDAS 生态系统的核心组件，是一个分布式大数据处理框架。Spark Core提供了多种资源调度管理，通过内存计算、有向无环图（DA 阅读全文

posted @ 2022-03-09 08:56 Ls1ion 阅读(80) 评论(0) 推荐(1)

2022年3月2日

2.安装Spark与Python练习

摘要：一、安装Spark 1、检查基础环境hadoop,jdk echo $JAVA_HOME java -version start-dfs.sh jps hadoop version 2、配置文件 cp ./conf/spark-env.sh.template ./conf/spark-env.sh 阅读全文

posted @ 2022-03-02 11:27 Ls1ion 阅读(69) 评论(0) 推荐(0)

2022年2月23日

1.大数据概述

摘要： 1.列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系，以图呈现并加以文字描述。 HDFS： HDFS是整个系统的核心，负责分布式地存储数据。HDFS把整个的分布式存储系统抽象出来，使得用户不需要真正关心它的分布式，只需要关心需要存储和处理的数据本身。HDFS有两种节点，分别是Nam 阅读全文

posted @ 2022-02-23 11:10 Ls1ion 阅读(124) 评论(0) 推荐(0)

公告