111学习总结

spark和Hadoop的对比

hadoop spark
1
类型 基础平台,包含计算,存储,调度 纯计算工具
场景 海量数据处理(磁盘迭代计算) 海量数据处理(磁盘迭代计算、交互式计算),海量数据流计算
价格 对机器需求低,便宜 堆内存有要求,较贵
编程范式 map+reduce,api较为底层,算法适应性差 RDD组成DAG邮箱无环图,api较为顶层,方便使用
数据存储结构 mapreduce中间计算结果在hdfs磁盘上,延迟大 RDD中间运算结果在内存中,延迟小
运行方式 task以进程方式维护,任务启动慢 task以线程方式维护,任务启动快,可批量创建提高并行能力

尽管spark相对于hadoop而言具有较大优势,但是spark不能完全代替Hadoop

在计算层面,spark相比较MR右巨大优势,但至今仍有许多计算工具基于MR构架
spark仅作计算,而Hadoop生态圈不仅右计算(MR)还有存储(hdfs)和资源管理调度(YRAN),hdfs和yarn仍是许多大数据体系的核心架构

posted @ 2024-01-11 20:37  代不动码  阅读(12)  评论(0)    收藏  举报