摘要:
从文件中读取数据是创建 RDD 的一种方式. 把数据保存的文件中的操作是一种 Action. Spark 的数据读取及数据保存可以从两个维度来作区分:文件格式以及文件系统。 文件格式分为:Text文件、Json文件、csv文件、Sequence文件以及Object文件; 文件系统分为:本地文件系统、 阅读全文
posted @ 2022-02-01 23:06
xingmeng1
阅读(148)
评论(0)
推荐(0)
摘要:
1.1 HashPartitioner HashPartitioner分区的原理:对于给定的key,计算其hashCode,并除以分区的个数取余,如果余数小于 0,则用余数+分区的个数(否则加0),最后返回的值就是这个key所属的分区ID。 1.2 RangePartitioner HashPart 阅读全文
posted @ 2022-02-01 22:39
xingmeng1
阅读(60)
评论(0)
推荐(0)
摘要:
dasd 阅读全文
posted @ 2022-02-01 21:51
xingmeng1
阅读(36)
评论(0)
推荐(0)
摘要:
第 1 章 RDD 概述 1.1 什么是 RDD RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象。 1.2 RDD 的 5 个主要属性(property) • A list of partitions 多个分区. 分区可以看成 阅读全文
posted @ 2022-02-01 21:49
xingmeng1
阅读(254)
评论(0)
推荐(0)

浙公网安备 33010602011771号