摘要: http://blog.51cto.com/13943588/2165946 3、hadoop和spark的都是并行计算,那么他们有什么相同和区别? 两者都是用mr模型来进行并行计算,hadoop的一个作业称为job,job里面分为map task和reduce task,每个task都是在自己的进 阅读全文
posted @ 2018-11-08 16:47 脆皮软心 阅读(2907) 评论(0) 推荐(0)
摘要: (1)Spark计算速度远胜于Hadoop的原因之一就在于中间结果是缓存在内存而不是直接写入到disk Hadoop每次计算先写磁盘,下次计算先从磁盘读,计算结果再写磁盘,如此往复。这对于迭代计算,是个噩梦 Spark为每个应用程序在worker上开启一个进程,而一个Job中的Task会在同一个线程 阅读全文
posted @ 2018-11-08 16:20 脆皮软心 阅读(906) 评论(0) 推荐(0)