摘要: shuffle是spark中一个很重要的概念,它表示的是上游分区的数据打散到下游分区中。一般来说,shuffle类的算子比如reducebykey会发生shuffle,但是并不是一定会产生。 比如,前面已经经过groupbykey进行分组了,现在再次调用shuffle类算子比如groupbykey, 阅读全文
posted @ 2022-03-30 23:00 习惯了蓝 阅读(854) 评论(0) 推荐(0)
摘要: 在spark中,使用类实例,一般分为四种情况 Driver初始化一个object,这个单例对象要伴随着Task发送到Executor,但是一个Executor中只有一份,必须实现序列化接口, 使用共享成员变量有可能会出现线程安全问题 Driver实例化一个类的实例(new一个实例),在函数内容引用了 阅读全文
posted @ 2022-03-30 16:57 习惯了蓝 阅读(98) 评论(0) 推荐(0)