摘要:
需求: 数据结构:时间戳,省份,城市,用户,广告,中间字段使用空格分割。 样本如下: 1516609143867 6 7 64 16 1516609143869 9 4 75 18 1516609143869 1 7 87 12 思路分析如下: 第一步:过滤无关的数据字段,只留下省份,广告第二步:省 阅读全文
posted @ 2020-02-27 15:07
盛夏群岛
阅读(300)
评论(0)
推荐(0)
摘要:
(1)添加依赖 <dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>2.1.1</version> </dependency 阅读全文
posted @ 2020-02-27 13:07
盛夏群岛
阅读(548)
评论(0)
推荐(0)
摘要:
在实际开发中我们往往需要自己定义一些对于RDD的操作,那么此时需要考虑的主要问题是,初始化工作是在Driver端进行的,而实际运行程序是在Executor端进行的,这就涉及到了跨进程通信,是需要序列化的。 传递一个方法 import org.apache.spark.rdd.RDD class Se 阅读全文
posted @ 2020-02-27 13:05
盛夏群岛
阅读(598)
评论(0)
推荐(0)
摘要:
reduce(func) 通过func函数聚集RDD中的所有元素并得到最终的结果,先聚合分区内数据,再聚合分区间数据。Func函数决定了聚合的方式。 def main(args: Array[String]): Unit = { val sc: SparkContext = new SparkCon 阅读全文
posted @ 2020-02-27 11:43
盛夏群岛
阅读(236)
评论(0)
推荐(0)

浙公网安备 33010602011771号