摘要: sample采样算子 https://www.cnblogs.com/students/p/13432692.html sortby算子为什么会触发action操作。 https://waltyou.github.io/Special-SortBy-In-RDD/ 阅读全文
posted @ 2022-03-29 23:51 习惯了蓝 阅读(22) 评论(0) 推荐(0)
摘要: 广播变量 广播变量将小样本的规则数据汇总到driver端并不是只能由workrer读取hdfs分区上数据在进行汇总的,可以直接由driver去读,也driver端去mysql读等等多种方式在driver端拿到广播数据。 driver端广播到对应application的executor上不是把整份数据 阅读全文
posted @ 2022-03-29 20:40 习惯了蓝 阅读(57) 评论(0) 推荐(0)
摘要: checkpoint,用来保存中间计算的结果,一般把结果保存到hdfs上。而且checkpoint一般和cache或者persist连用, 想要中间计算的结果,会先去cache的内存里面找,或者persist保存的本地磁盘,如果没有再去招checkpoint的, 要注意,cache的丢失了,顶多是往 阅读全文
posted @ 2022-03-29 19:36 习惯了蓝 阅读(504) 评论(0) 推荐(0)