随笔档案「2017年12月13日」：Spark RDD(Resilient Distributed Dataset) ... - 一剑侵心

2017年12月13日

Spark RDD(Resilient Distributed Dataset)

摘要：基于数据集的处理：从物理存储上加载数据，然后操作数据，然后写入物理存储设备。比如Hadoop的MapReduce。缺点：1.不适合大量的迭代 2. 交互式查询 3. 不能复用曾经的结果或中间计算结果基于工作集的处理：如Spark的RDD。RDD具有如下的弹性： 1. 自动的进行内存和磁盘数据存储阅读全文

posted @ 2017-12-13 21:28 一剑侵心阅读(1543) 评论(0) 推荐(0)

一剑侵心

公告