spark2

特点

通用 批处理 迭代式计算 交互查询 流处理

组件

spark core:任务调度 内存管理 容错机制 内部定义了RDDs  提供了很多API ,为其他组件提供底层的服务

spark sql:报表统计

streaming :从kafka接收数据做实时统计

mlib:mll 支持横向扩展,机器学习

graphx:处理图 图计算 如社交网络图

cluster managers:集群管理

紧密集成优点

节省组件组合时的部署测试时间

与hadoop比较

时效性高(基于内存) 机器学习等领域

RDD

分布式数据集。不可变、可分区、可并行计算

允许用户在执行多个查询时显式将工作集缓存在内存中

后续查询能重用工作集

RDD属性

分片partition

 

posted @ 2019-07-01 10:24  hhhl  阅读(187)  评论(0)    收藏  举报