Spark简介 --大数据

快速且通用的集群计算平台

包含基本功能，包括任务调度、内存管理、容错机制。内部定义了RDDS（弹性分布式数据集），提供了很多APIs来创建和操作这些RDDs。
应用场景：为其它组件提供底层的服务。

Spark处理结构化数据的库，像Hive SQL、MySQL一样。
应用场景：企业中用来做报表统计

实时数据流处理组件，类似Storm。Spark Streaming提供API来操作实时流数据。
应用场景：企业中用来从Kafka接收数据做实时统计

一个包含通用机器学习功能的包，Machine learning lib。包含分类、聚类、回归等，还包括模型评估和数据导入。MLlib提供的上面这些方法，都支持集群上的横向扩展。

处理图的库（例如社交网络图），并进行图的并行计算，像Spark Streaming,Spark SQL一样，它继承了RDD API。提供了各种图的操作，和常用的图算法，例如RangeRank算法
应用场景：图计算

集群管理，Spark自带一个集群管理是单独调度器。常见的集群管理包括：Hadoop YARN、Apache Mesos

Spark底层优化，基于Spark底层的组件，也得到相应的优化。紧密集成，节省了各个组件使用时的部署，测试时间。向Spark增加新的组件时，其它组件可立即享用新组件的功能。

Hadoop应用场景：离线处理、对及时性要求不高
Spark应用场景：时效性要求高、机器学习等领域

posted @ 2019-05-09 21:18 牛新龙的IT技术博客阅读(3278) 评论(0) 收藏举报

刷新页面返回顶部