摘要: 当数据增加,我们又无法无限制的增加硬件,我们就要利用RDD的partition。将获取一个大表的任务拆分成多个任务,一个一个来执行,每个任务只获取一小部分数据,这样通过多个连接同时去取数据,速度反而更快。 我的配置目前是 master 1 8g,slave 3 8g 参数具体意义: partitio 阅读全文
posted @ 2019-06-14 09:35 IT学问网 阅读(1242) 评论(0) 推荐(0)