习惯了蓝

2022年3月29日

摘要：广播变量广播变量将小样本的规则数据汇总到driver端并不是只能由workrer读取hdfs分区上数据在进行汇总的，可以直接由driver去读，也driver端去mysql读等等多种方式在driver端拿到广播数据。 driver端广播到对应application的executor上不是把整份数据阅读全文

posted @ 2022-03-29 20:40 习惯了蓝阅读(62) 评论(0) 推荐(0)

checkpoint

摘要： checkpoint，用来保存中间计算的结果，一般把结果保存到hdfs上。而且checkpoint一般和cache或者persist连用，想要中间计算的结果，会先去cache的内存里面找，或者persist保存的本地磁盘，如果没有再去招checkpoint的，要注意，cache的丢失了，顶多是往阅读全文

posted @ 2022-03-29 19:36 习惯了蓝阅读(522) 评论(0) 推荐(0)

2022年3月28日

cache，persist

摘要：将数据缓存到内存，第一次触发 Action，才会将数据放入内存，以后在触发 Action，可以复用前面内存中缓存的数据，可以提升技术效率cache 和 persist 的使用场景：一个 application 多次触发 Action，为了复用前面 RDD 的数据，避免反复读取 HDFS（数据源）中的阅读全文

posted @ 2022-03-28 21:02 习惯了蓝阅读(208) 评论(0) 推荐(0)

2022年3月27日

repartiton算子（重分区算子），coalesce算子

摘要： repartiton算子，重分区算子，比如上游的分区数太多，下游想要减少就可以使用，是一种物理改变分区的算子，涉及到shuffle操作。它底层调用的coalesce算子，repartiton在这里传进去了shuffle是true coalesce算子可以指定是否shuffle，coalesce函数总阅读全文

posted @ 2022-03-27 17:43 习惯了蓝阅读(116) 评论(0) 推荐(0)

2022年3月26日

Join，leftouterjoin,,rightouterjoin,fullouterjoin算子

摘要： join类型算子，是依赖于K,V类型的算子，是俩个RDD的交集操作，底层是cogroup算子+flatmapvalues算子操作。 leftouterjoin类型算子，是依赖于K,V类型的算子，是俩个RDD的交集操作，底层是cogroup算子+flatmapvalues算子操作。类似于mysql的左阅读全文

posted @ 2022-03-26 15:49 习惯了蓝阅读(63) 评论(0) 推荐(0)

2022年3月25日

cogroup算子

摘要： cogroup算子是协分组算子，它的作用是合并多个RDD内容，这也是一个k,v类型的算子。把合并起来的多个RDD中，共同的key算作key,value为一个元组，元组内容是compactbuffer，里面内容是之前RDD的value值。cogroup几个RDD就有几个RDD 具体可以看下面俩副图。阅读全文

posted @ 2022-03-25 23:31 习惯了蓝阅读(244) 评论(0) 推荐(0)

Spark中的隐式转换

摘要：在Spark中，当进行程序编写的时候，都是调用一个个算子，在外部看上去似乎都是在调用RDD算子，似乎这些算子都是存在在RDD这个文件中，但是RDD中直接存在的只有map，filter这些基本算子，其他都是通过伴生类中的隐式转换调用其他文件下的算子的。这图就是源码包下的一段说明，这里主要记录一下Pai 阅读全文

posted @ 2022-03-25 21:36 习惯了蓝阅读(538) 评论(0) 推荐(0)

2022年2月23日

phoenix使用连接

摘要： phoenix创建相关 https://www.modb.pro/db/54559 阅读全文

posted @ 2022-02-23 22:10 习惯了蓝阅读(34) 评论(0) 推荐(0)

2022年2月13日

实时数仓搭建中遇到问题记录，陆续更新中

摘要： Could not find a file system implementation for scheme 'hdfs'. The scheme is not directly supported， Flink应用提交到集群报错： https://blog.csdn.net/qq_39211575 阅读全文

posted @ 2022-02-13 23:30 习惯了蓝阅读(109) 评论(0) 推荐(0)

2022年1月15日

算子转换和api图

摘要：算子转换图 flink的分级api 阅读全文

posted @ 2022-01-15 18:00 习惯了蓝阅读(42) 评论(0) 推荐(0)

公告