2017 年 12月 3 日随笔档案 - ^_TONY_^

2017年12月3日

摘要：一、广播变量广播变量允许程序员将一个只读的变量缓存在每台机器上，而不用在任务之间传递变量。广播变量可被用于有效地给每个节点一个大输入数据集的副本。Spark还尝试使用高效地广播算法来分发变量，进而减少通信的开销。 Spark的动作通过一系列的步骤执行，这些步骤由分布式的洗牌操作分开。Spark自阅读全文

posted @ 2017-12-03 23:15 ^_TONY_^ 阅读(3669) 评论(0) 推荐(0) 编辑

Spark基本架构及原理

摘要： Hadoop 和 Spark 的关系 Spark 运算比 Hadoop 的 MapReduce 框架快的原因是因为 Hadoop 在一次 MapReduce 运算之后,会将数据的运算结果从内存写入到磁盘中,第二次 Mapredue 运算时在从磁盘中读取数据,所以其瓶颈在2次运算间的多余 IO 消耗. 阅读全文

posted @ 2017-12-03 23:13 ^_TONY_^ 阅读(2852) 评论(0) 推荐(0) 编辑

Spark On Yarn的两种模式yarn-cluster和yarn-client深度剖析

摘要： Spark On Yarn的优势每个Spark executor作为一个YARN容器(container)运行。Spark可以使得多个Tasks在同一个容器(container)里面运行 1. Spark支持资源动态共享，运行于Yarn的框架都共享一个集中配置好的资源池 2. 可以很方便的利用Ya 阅读全文

posted @ 2017-12-03 21:21 ^_TONY_^ 阅读(18291) 评论(2) 推荐(9) 编辑

tony~博客小屋

夫学须静也,才须学也.非学无以广才,非志无以成学→_→^_^

公告