摘要: 广播变量 广播变量将小样本的规则数据汇总到driver端并不是只能由workrer读取hdfs分区上数据在进行汇总的,可以直接由driver去读,也driver端去mysql读等等多种方式在driver端拿到广播数据。 driver端广播到对应application的executor上不是把整份数据 阅读全文
posted @ 2022-03-29 20:40 习惯了蓝 阅读(57) 评论(0) 推荐(0)
摘要: checkpoint,用来保存中间计算的结果,一般把结果保存到hdfs上。而且checkpoint一般和cache或者persist连用, 想要中间计算的结果,会先去cache的内存里面找,或者persist保存的本地磁盘,如果没有再去招checkpoint的, 要注意,cache的丢失了,顶多是往 阅读全文
posted @ 2022-03-29 19:36 习惯了蓝 阅读(504) 评论(0) 推荐(0)
摘要: 将数据缓存到内存,第一次触发 Action,才会将数据放入内存,以后在触发 Action,可以复用前面内存中缓存的数据,可以提升技术效率cache 和 persist 的使用场景:一个 application 多次触发 Action,为了复用前面 RDD 的数据,避免反复读取 HDFS(数据源)中的 阅读全文
posted @ 2022-03-28 21:02 习惯了蓝 阅读(193) 评论(0) 推荐(0)
摘要: repartiton算子,重分区算子,比如上游的分区数太多,下游想要减少就可以使用,是一种物理改变分区的算子,涉及到shuffle操作。它底层调用的coalesce算子,repartiton在这里传进去了shuffle是true coalesce算子可以指定是否shuffle,coalesce函数总 阅读全文
posted @ 2022-03-27 17:43 习惯了蓝 阅读(101) 评论(0) 推荐(0)
摘要: join类型算子,是依赖于K,V类型的算子,是俩个RDD的交集操作,底层是cogroup算子+flatmapvalues算子操作。 leftouterjoin类型算子,是依赖于K,V类型的算子,是俩个RDD的交集操作,底层是cogroup算子+flatmapvalues算子操作。类似于mysql的左 阅读全文
posted @ 2022-03-26 15:49 习惯了蓝 阅读(60) 评论(0) 推荐(0)
摘要: cogroup算子是协分组算子,它的作用是合并多个RDD内容,这也是一个k,v类型的算子。 把合并起来的多个RDD中,共同的key算作key,value为一个元组,元组内容是compactbuffer,里面内容是之前RDD的value值。cogroup几个RDD就有几个RDD 具体可以看下面俩副图。 阅读全文
posted @ 2022-03-25 23:31 习惯了蓝 阅读(233) 评论(0) 推荐(0)
摘要: 在Spark中,当进行程序编写的时候,都是调用一个个算子,在外部看上去似乎都是在调用RDD算子,似乎这些算子都是存在在RDD这个文件中,但是RDD中直接存在的只有map,filter这些基本算子,其他都是通过伴生类中的隐式转换调用其他文件下的算子的。这图就是源码包下的一段说明,这里主要记录一下Pai 阅读全文
posted @ 2022-03-25 21:36 习惯了蓝 阅读(529) 评论(0) 推荐(0)
摘要: phoenix创建相关 https://www.modb.pro/db/54559 阅读全文
posted @ 2022-02-23 22:10 习惯了蓝 阅读(34) 评论(0) 推荐(0)
摘要: Could not find a file system implementation for scheme 'hdfs'. The scheme is not directly supported, Flink应用提交到集群报错: https://blog.csdn.net/qq_39211575 阅读全文
posted @ 2022-02-13 23:30 习惯了蓝 阅读(100) 评论(0) 推荐(0)
摘要: 算子转换图 flink的分级api 阅读全文
posted @ 2022-01-15 18:00 习惯了蓝 阅读(41) 评论(0) 推荐(0)