摘要: spark的运行角色: 分布式代码的流程分析 pythononspark原理 阅读全文
posted @ 2024-02-10 20:44 天启A 阅读(19) 评论(0) 推荐(0)
摘要: RDD即resilient distributed dataset 弹性分布式数据集,简单来说就是数据集,可以类比python的list dict;但是数据是分布式存储的,可用于分布式计算;可以存在内存或者磁盘中,而不像list那些数据集一样只能存于进程中 RDD的五大特性: 一:是有分区的 分区是 阅读全文
posted @ 2024-02-10 20:44 天启A 阅读(24) 评论(0) 推荐(0)