随笔档案「2022年3月30日」：shuffle ... - 习惯了蓝

2022年3月30日

摘要： shuffle是spark中一个很重要的概念，它表示的是上游分区的数据打散到下游分区中。一般来说，shuffle类的算子比如reducebykey会发生shuffle，但是并不是一定会产生。比如，前面已经经过groupbykey进行分组了，现在再次调用shuffle类算子比如groupbykey，阅读全文

posted @ 2022-03-30 23:00 习惯了蓝阅读(869) 评论(0) 推荐(0)

task的序列化问题和线程安全问题

摘要：在spark中，使用类实例，一般分为四种情况 Driver初始化一个object，这个单例对象要伴随着Task发送到Executor，但是一个Executor中只有一份，必须实现序列化接口，使用共享成员变量有可能会出现线程安全问题 Driver实例化一个类的实例（new一个实例），在函数内容引用了阅读全文

posted @ 2022-03-30 16:57 习惯了蓝阅读(101) 评论(0) 推荐(0)

习惯了蓝

公告