随笔分类 - 作业
摘要:1.分析SparkSQL出现的原因,并简述SparkSQL的起源与发展。 Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个叫作Data Frame的编程抽象结构数据模型(即带有Schema信息的RDD),Spark SQL作为分布式SQL查询引擎,让用户可以通过SQL、Dat
阅读全文
摘要:一、安装Spark 1、检查基础环境hadoop,jdk echo $JAVA_HOME java -version start-dfs.sh jps hadoop version 2、配置文件 cp ./conf/spark-env.sh.template ./conf/spark-env.sh
阅读全文
摘要:1.列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系,以图呈现并加以文字描述。 HDFS: HDFS是整个系统的核心,负责分布式地存储数据。HDFS把整个的分布式存储系统抽象出来,使得用户不需要真正关心它的分布式,只需要关心需要存储和处理的数据本身。HDFS有两种节点,分别是Nam
阅读全文