摘要:
shuffle是spark中一个很重要的概念,它表示的是上游分区的数据打散到下游分区中。一般来说,shuffle类的算子比如reducebykey会发生shuffle,但是并不是一定会产生。 比如,前面已经经过groupbykey进行分组了,现在再次调用shuffle类算子比如groupbykey, 阅读全文
posted @ 2022-03-30 23:00
习惯了蓝
阅读(854)
评论(0)
推荐(0)
摘要:
在spark中,使用类实例,一般分为四种情况 Driver初始化一个object,这个单例对象要伴随着Task发送到Executor,但是一个Executor中只有一份,必须实现序列化接口, 使用共享成员变量有可能会出现线程安全问题 Driver实例化一个类的实例(new一个实例),在函数内容引用了 阅读全文
posted @ 2022-03-30 16:57
习惯了蓝
阅读(98)
评论(0)
推荐(0)

浙公网安备 33010602011771号