摘要:
RDD(弹性分布式数据集)是Spark的核心抽象。它是一组元素,在集群的节点之间进行分区,以便我们可以对其执行各种并行操作。 创建RDD的两种方式: 并行化驱动程序中的现有数据; 引用外部存储系统中的数据集。 并行化集合 要创建并行化集合,在驱动程序中现有的集合上调用SparkContext的par 阅读全文
posted @ 2022-01-24 17:23
干了这瓶老干妈
阅读(84)
评论(0)
推荐(0)
摘要:
Apache Spark是一个开源的集群计算框架,主要用来处理实时生成的数据。 Spark是建立在Hadoop的MapReduce顶部。它被优化到了内存中运行,而MapReduce等替代方法是将数据写入硬盘或从硬盘中写入数据,因此,Spark比其它替代方法运行速度更快。 Apache Spark的特 阅读全文
posted @ 2022-01-24 14:40
干了这瓶老干妈
阅读(580)
评论(0)
推荐(0)