摘要: 共享变量 (1)累加器:是用来对信息进行聚合的,同时也是Spark中提供的一种分布式的变量机制,其原理类似于mapreduce,即分布式的改变,然后聚合这些改变。累加器的一个常见用途是在调试时对作业执行过程中的事件进行计数。 Spark内置的提供了Long和Double类型的累加器 此代码用于实现累 阅读全文
posted @ 2018-08-06 16:55 流氓小伙子 阅读(371) 评论(0) 推荐(0)
摘要: 背景:一个java中的类只有实现了Serializable接口,它的对象才是可序列化的。如果要序列化某些类的对象,这些类就必须实现Serializable接口。Serializable是一个空接口,没有什么具体内容,它的目的只是简单的标识一个类的对象可以被序... 阅读全文
posted @ 2018-08-06 11:12 流氓小伙子 阅读(17622) 评论(0) 推荐(2)