作业 - 随笔分类 - Ls1ion

7.Spark SQL

摘要：1.分析SparkSQL出现的原因，并简述SparkSQL的起源与发展。 Spark SQL是Spark用来处理结构化数据的一个模块，它提供了一个叫作Data Frame的编程抽象结构数据模型(即带有Schema信息的RDD)，Spark SQL作为分布式SQL查询引擎，让用户可以通过SQL、Dat 阅读全文

posted @ 2022-04-27 10:03 Ls1ion 阅读(123) 评论(0) 推荐(0)

2.安装Spark与Python练习

摘要：一、安装Spark 1、检查基础环境hadoop,jdk echo $JAVA_HOME java -version start-dfs.sh jps hadoop version 2、配置文件 cp ./conf/spark-env.sh.template ./conf/spark-env.sh 阅读全文

posted @ 2022-03-02 11:27 Ls1ion 阅读(70) 评论(0) 推荐(0)

1.大数据概述

摘要：1.列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系，以图呈现并加以文字描述。 HDFS： HDFS是整个系统的核心，负责分布式地存储数据。HDFS把整个的分布式存储系统抽象出来，使得用户不需要真正关心它的分布式，只需要关心需要存储和处理的数据本身。HDFS有两种节点，分别是Nam 阅读全文

posted @ 2022-02-23 11:10 Ls1ion 阅读(128) 评论(0) 推荐(0)

Ls1ion

随笔分类 - 作业

公告