spark - 随笔分类 - jechedo

Spark API 之 combineByKey（一）

摘要：1 前言 combineByKey是使用Spark无法避免的一个方法，总会在有意或无意，直接或间接的调用到它。从它的字面上就可以知道，它有聚合的作用，对于这点不想做过多的解释，原因很简单，因为reduceByKey、aggregateByKey、foldByKey等函数都是使用它来实现的。 comb 阅读全文

posted @ 2016-10-08 16:59 jechedo 阅读(5353) 评论(0) 推荐(1)

Spark RDD到底是个什么东西

摘要：前言用Spark有一段时间了，但是感觉还是停留在表面，对于Spark的RDD的理解还是停留在概念上，即只知道它是个弹性分布式数据集，其他的一概不知有点略显惭愧。下面记录下我对RDD的新的理解。官方介绍弹性分布式数据集。 RDD是只读的、分区记录的集合。RDD只能基于在稳定物理存储中的数据集和阅读全文

posted @ 2016-08-03 18:33 jechedo 阅读(21199) 评论(0) 推荐(5)

Spark程序使用groupByKey后数据存入HBase出现重复的现象

摘要：最近在一个项目中做数据的分类存储，在spark中使用groupByKey后存入HBase，发现数据出现双份（所有记录的 rowKey 是随机唯一的）。经过不断的测试，发现是spark的运行参数配置的问题：spark.speculation=true，将其改为false，问题就解决了。哎... 阅读全文

posted @ 2016-01-08 18:23 jechedo 阅读(826) 评论(5) 推荐(2)

jechedo

简简单单，做个快乐的搬运工。

随笔分类 - spark

公告