随笔档案「2020年5月11日」：Spark 问题总结（二） ... - 闭关49天

公告

2020年5月11日

摘要： 1. RDD如何持久化数据? 有两种方法可以持久存储数据，比如持久存储 persist()和cache() 临时存储在内存中。有不同的存储级别选项，比如MEMORY_ONLY、MEMORY_AND_DISK、DISK_ONLY等等。 persist() 和 cache() 使用不同的选项取决于任务阅读全文

posted @ 2020-05-11 15:51 闭关49天阅读(284) 评论(0) 推荐(0)

Spark 问题总结（一）

摘要： 1. Spark是什么? Spark是一个并行数据处理框架。它允许开发快速、统一的大数据应用程序，将批处理、流处理和交互分析结合起来。 2. RDD是什么? Spark的主要核心抽象称为弹性分布式数据集。RDD是满足这些属性的分区数据的集合。不可变、分布式、延迟计算、可捕获是常见的RDD属性。 3. 阅读全文

posted @ 2020-05-11 14:54 闭关49天阅读(386) 评论(0) 推荐(0)

yjyyjy

公告