随笔分类 -  作业

摘要:1.分析SparkSQL出现的原因,并简述SparkSQL的起源与发展。 Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个叫作Data Frame的编程抽象结构数据模型(即带有Schema信息的RDD),Spark SQL作为分布式SQL查询引擎,让用户可以通过SQL、Dat 阅读全文
posted @ 2022-04-27 10:03 Ls1ion 阅读(102) 评论(0) 推荐(0)
摘要:一、安装Spark 1、检查基础环境hadoop,jdk echo $JAVA_HOME java -version start-dfs.sh jps hadoop version 2、配置文件 cp ./conf/spark-env.sh.template ./conf/spark-env.sh 阅读全文
posted @ 2022-03-02 11:27 Ls1ion 阅读(58) 评论(0) 推荐(0)
摘要:1.列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系,以图呈现并加以文字描述。 HDFS: HDFS是整个系统的核心,负责分布式地存储数据。HDFS把整个的分布式存储系统抽象出来,使得用户不需要真正关心它的分布式,只需要关心需要存储和处理的数据本身。HDFS有两种节点,分别是Nam 阅读全文
posted @ 2022-02-23 11:10 Ls1ion 阅读(116) 评论(0) 推荐(0)