zourui4271

博客园 首页 新随笔 联系 订阅 管理

2018年12月6日 #

摘要: 文是分布式系统系列文章的第一篇,后续还会有分布式系统的本质、分布式系统的暗流、数据库如何确保操作被 100% 正确执行?等文章陆续刊发,敬请期待。 如果现在让你阐述一下什么是“分布式系统”,你脑子里第一下跳出来的是什么?我想,此时可以用苏东坡先生的一句诗,来形象地描述大家对分布式系统的认识: 横看成 阅读全文
posted @ 2018-12-06 20:08 zourui4271 阅读(164) 评论(0) 推荐(0)

摘要: https://www.infoq.cn/article/lw_Ax10OXkL2zcIDRkJ1 谈到分布式系统的价值,可能就得从 1953 年说起了。在这一年,埃布·格罗希(Herb Grosch)提出了一个他观察得出的规律——Grosch 定律。维基百科中是这样描述的: 计算机性能随着成本的平 阅读全文
posted @ 2018-12-06 20:05 zourui4271 阅读(217) 评论(0) 推荐(0)

摘要: 对于大数据计算框架而言,Shuffle阶段的设计优劣是决定性能好坏的关键因素之一。本文将介绍目前Spark的shuffle实现,并将之与MapReduce进行简单对比。本文的介绍顺序是:shuffle基本概念,MapReduce Shuffle发展史以及Spark Shuffle发展史。 (1) s 阅读全文
posted @ 2018-12-06 19:43 zourui4271 阅读(299) 评论(0) 推荐(0)

摘要: 源调度和资源隔离是YARN作为一个资源管理系统,最重要和最基础的两个功能。资源调度由ResourceManager完成,而资源隔离由各个NodeManager实现,在文章“Hadoop YARN中内存和CPU两种资源的调度和隔离”中,我已经介绍了YARN的内存和CPU的资源隔离,本文将介绍YARN在 阅读全文
posted @ 2018-12-06 19:31 zourui4271 阅读(1442) 评论(0) 推荐(0)

摘要: 背景 MapReduce和Spark对外提供了上百个配置参数,用户可以为作业定制这些参数以更快,更稳定的运行应用程序。本文梳理了最常用的一些MapReduce和Spark配置参数。 MapReduce重要配置参数 1. 资源相关参数 (1) mapreduce.map.memory.mb: 一个Ma 阅读全文
posted @ 2018-12-06 19:15 zourui4271 阅读(320) 评论(0) 推荐(0)