随笔分类 -  大数据系列

摘要:1. DataFrame 的创建 1.1 RDD 和 DataFrame 的区别 RDD 是一种弹性分布式数据集,Spark中的基本抽象。表示一种不可变的、分区储存的集合,可以进行并行操作 DataFrame是一种以列对数据进行分组表达的分布式集合, DataFrame等同于Spark SQL中的关 阅读全文
posted @ 2021-04-11 22:50 Hubery_Jun 阅读(352) 评论(0) 推荐(0)
摘要:1. 创建 RDD 主要两种方式: sc.textFile 加载本地或集群文件系统中的数据,或者从 HDFS 文件系统、HBase、Cassandra、Amazon S3等外部数据源中加载数据集。Spark可以支持文本文件、SequenceFile文件(Hadoop提供的 SequenceFile是 阅读全文
posted @ 2021-04-11 22:47 Hubery_Jun 阅读(209) 评论(0) 推荐(0)
摘要:1. Java 安装 下载安装 jdk1.8: 1、解压: [root@bogon app]# pwd /home/hj/app [root@bogon app]# tar -zxvf jdk-8u261-linux-x64.tar.gz 2、配置 .bash_profile: export JAV 阅读全文
posted @ 2021-01-17 22:13 Hubery_Jun 阅读(440) 评论(0) 推荐(0)