Spark - 随笔分类(第2页) - 大数据学习与分享

摘要：对于Spark开发人员来说，一个比较普遍的问题就是如何合理的配置Spark的硬件？当然如何合理的对Spark集群进行硬件配置要视情况而定，在这里给出一些建议阅读全文

posted @ 2020-11-11 10:10 大数据学习与分享阅读(866) 评论(0) 推荐(0)

摘要：Spark是典型的Master/Slave架构，集群主要包括以下4个组件： Driver：Spark框架中的驱动器，运行用户编写Application 的main()函数。类比于MapReduce的MRAppmaster Master：主节点，控制整个集群，监控worker。在Yarn模式中为全局资源管理器 Worker：从节点，负责控制计算节点，启动Executor。类比Yarn中的节点资源管理器 Executor：运算任务执行器，运行在worker节点上的一个进程。类似于MapReduce中的MapTask和ReduceTask 阅读全文

posted @ 2020-11-06 17:59 大数据学习与分享阅读(244) 评论(0) 推荐(0)

重要 | Spark和MapReduce的对比，不仅仅是计算模型？

摘要：笔者将分上下篇文章进行阐述Spark和MapReduce的对比，首篇侧重于"宏观"上的对比，更多的是笔者总结的针对"相对于MapReduce我们为什么选择Spark"之类的问题的几个核心归纳点；次篇则从任务处理级别运用的并行机制/计算模型方面上对比，更多的是让大家对Spark为什么比MapReduce快有一个更深、更全面的认识。通过两篇文章的解读，希望帮助大家对Spark和MapReduce有一个更深入的了解，并且能够在遇到诸如"MapReduce相对于Spark的局限性？"等类似的面试题时能够得到较好地表现，顺利拿下offer 阅读全文

posted @ 2020-11-04 11:47 大数据学习与分享阅读(1964) 评论(0) 推荐(0)

Spark为什么只有在调用action时才会触发任务执行呢（附算子优化和使用示例）？

摘要：Spark算子主要划分为两类：transformation和action，并且只有action算子触发的时候才会真正执行任务。还记得之前的文章《Spark RDD详解》中提到，Spark RDD的缓存和checkpoint是懒加载操作，只有action触发的时候才会真正执行，其实不仅是Spark RDD，在Spark其他组件如SparkStreaming中也是如此，这是Spark的一个特性之一。像我们常用的算子map、flatMap、filter都是transformation算子，而collect、count、saveAsTextFile、countByKey、foreach则为action算子阅读全文

posted @ 2020-10-30 10:39 大数据学习与分享阅读(228) 评论(0) 推荐(0)

Spark RDD详解 | RDD特性、lineage、缓存、checkpoint、依赖关系

摘要：RDD（Resilient Distributed Datasets）弹性的分布式数据集，又称Spark core，它代表一个只读的、不可变、可分区，里面的元素可分布式并行计算的数据集。RDD是一个很抽象的概念，不易于理解，但是要想学好Spark，必须要掌握RDD，熟悉它的编程模型，这是学习Spark其他组件的基础阅读全文

posted @ 2020-10-23 15:52 大数据学习与分享阅读(1060) 评论(0) 推荐(0)

解析SparkStreaming和Kafka集成的两种方式

摘要：spark streaming是基于微批处理的流式计算引擎，通常是利用spark core或者spark core与spark sql一起来处理数据。在企业实时处理架构中，通常将spark streaming和kafka集成作为整个大数据处理架构的核心环节之一阅读全文

posted @ 2020-10-22 20:22 大数据学习与分享阅读(561) 评论(0) 推荐(0)

Spark核心组件通识概览

摘要：Apache Spark是一种快速、通用、可扩展、可容错的、基于内存迭代计算的大数据分析引擎。首先强调一点, Spark目前是一个处理数据的计算引擎, 不做存储。首先咱们通过一张图来看看目前Spark生态圈都包括哪些核心组件阅读全文

posted @ 2020-10-18 16:32 大数据学习与分享阅读(586) 评论(0) 推荐(0)

随笔分类 - Spark

公告