摘要:
Spark 提供了数据的核心抽象,称为弹性分布式数据集 (RDD)。此数据集的全部或部分可以缓存在内存中,并在多次计算期间重复使用。RDD实际上是一个分布在多个节点上的数据集。 RDD的主要特点如下: RDD是不可变的,但它可以转换为新的RDD进行操作。 RDD 已分区。RDD 由许多分区组成,每个 阅读全文
posted @ 2014-09-18 13:31
JackYang
阅读(3716)
评论(0)
推荐(0)
摘要:
Apache Spark 是一个闪电般的开源数据处理引擎,用于机器学习和人工智能应用程序,由最大的大数据开源社区提供支持。 什么是Apache Spark? Apache Spark(Spark)是一个用于大型数据集的开源数据处理引擎。它旨在提供大数据所需的计算速度、可扩展性和可编程性,特别是流数据 阅读全文
posted @ 2014-09-18 11:42
JackYang
阅读(3115)
评论(0)
推荐(0)
摘要:
摘要 Spark 是一个高效的分布式计算框架,但想要更深入地学习它,就需要分析 Spark 的源代码,这不仅可以帮助更好地了解 Spark 的工作过程,还可以提高集群的故障排除能力。本文主要关注Spark Master的启动过程和Worker的启动过程。 Master Start 我们通过启动脚本 阅读全文
posted @ 2014-09-18 11:36
JackYang
阅读(1519)
评论(0)
推荐(0)
浙公网安备 33010602011771号