摘要:
1.JavaPairRDD背景 键值对 RDD 通常用来进行聚合计算。先通过一些初始 ETL(抽取、转 化、装载)操作来将数据转化为键值对形式。键值对 RDD 提供了一些新的操作接口 让用户控制键值对 RDD 在各节点上分布情况的高级特性:分区。 使用可控的分区方式把常被一起访问的数据放到同一个节点 阅读全文
posted @ 2018-11-07 21:03
liaochuanhu
阅读(84)
评论(0)
推荐(0)
摘要:
第一范式 1、每一列属性都是不可再分的属性值,确保每一列的原子性 2、两列的属性相近或相似或一样,尽量合并属性一样的列,确保不产生冗余数据。 1 2 如果需求知道那个省那个市并按其分类,那么显然第一个图是不容易满足需求的,也不符合第一范式。 1 2 显然第一个图结构不但不能满足足够多物品的要求,还会 阅读全文
posted @ 2018-11-07 16:22
liaochuanhu
阅读(34)
评论(0)
推荐(0)
摘要:
1.什么是RDD RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作 阅读全文
posted @ 2018-11-07 15:57
liaochuanhu
阅读(34)
评论(0)
推荐(0)

浙公网安备 33010602011771号