2022 年 2月 1 日随笔档案 - xingmeng1

2022年2月1日

摘要：从文件中读取数据是创建 RDD 的一种方式. 把数据保存的文件中的操作是一种 Action. Spark 的数据读取及数据保存可以从两个维度来作区分：文件格式以及文件系统。文件格式分为：Text文件、Json文件、csv文件、Sequence文件以及Object文件；文件系统分为：本地文件系统、阅读全文

posted @ 2022-02-01 23:06 xingmeng1 阅读(152) 评论(0) 推荐(0)

SparkCore中的Key-Value 类型 RDD 的数据分区器

摘要： 1.1 HashPartitioner HashPartitioner分区的原理：对于给定的key，计算其hashCode，并除以分区的个数取余，如果余数小于 0，则用余数+分区的个数（否则加0），最后返回的值就是这个key所属的分区ID。 1.2 RangePartitioner HashPart 阅读全文

posted @ 2022-02-01 22:39 xingmeng1 阅读(63) 评论(0) 推荐(0)

asdas

摘要： dasd 阅读全文

posted @ 2022-02-01 21:51 xingmeng1 阅读(37) 评论(0) 推荐(0)

Spark Core简介

摘要：第 1 章 RDD 概述 1.1 什么是 RDD RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象。 1.2 RDD 的 5 个主要属性(property) • A list of partitions 多个分区. 分区可以看成阅读全文

posted @ 2022-02-01 21:49 xingmeng1 阅读(261) 评论(0) 推荐(0)

xingmeng1

公告