2016 年 7月 4 日随笔档案 - XGogo

2016年7月4日

摘要：前言在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。在美团•大众点评，已经有很多同学在各种项目中尝试使用Spark。大多数同学阅读全文

posted @ 2016-07-04 22:45 XGogo 阅读(2666) 评论(0) 推荐(0)

Spark性能优化指南——高级篇

摘要：本文转自：http://tech.meituan.com/spark-tuning-pro.html 感谢原作者前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后，本文作为《Spark性能优化指南》的高级篇，将深入分析数据倾斜调优与shuffle调优，以解决更加棘手的性能阅读全文

posted @ 2016-07-04 22:44 XGogo 阅读(30558) 评论(0) 推荐(2)

Spark算子：RDD键值转换操作(2)–combineByKey、foldByKey

摘要：关键字：Spark算子、Spark RDD键值转换、combineByKey、foldByKey combineByKey def combineByKey[C](createCombiner: (V) => C, mergeValue: (C, V) => C, mergeCombiners: ( 阅读全文

posted @ 2016-07-04 22:26 XGogo 阅读(308) 评论(0) 推荐(0)

Spark算子：RDD键值转换操作(3)–groupByKey、reduceByKey、reduceByKeyLocally

摘要：关键字：Spark算子、Spark RDD键值转换、groupByKey、reduceByKey、reduceByKeyLocally groupByKey def groupByKey(): RDD[(K, Iterable[V])] def groupByKey(numPartitions: I 阅读全文

posted @ 2016-07-04 22:25 XGogo 阅读(492) 评论(0) 推荐(0)

Spark算子：RDD键值转换操作(1)–partitionBy、mapValues、flatMapValues

摘要：关键字：Spark算子、Spark RDD键值转换、partitionBy、mapValues、flatMapValues partitionBy def partitionBy(partitioner: Partitioner): RDD[(K, V)] 该函数根据partitioner函数生成新阅读全文

posted @ 2016-07-04 22:21 XGogo 阅读(754) 评论(0) 推荐(0)

Spark算子：统计RDD分区中的元素及数量

摘要：关键字：Spark算子、Spark RDD分区、Spark RDD分区元素数量 Spark RDD是被分区的，在生成RDD时候，一般可以指定分区的数量，如果不指定分区数量，当RDD从集合创建时候，则默认为该程序所分配到的资源的CPU核数，如果是从HDFS文件创建，默认为文件的Block数。可以利用阅读全文

posted @ 2016-07-04 22:20 XGogo 阅读(8746) 评论(0) 推荐(0)

Spark算子：RDD基本转换操作(7)–zipWithIndex、zipWithUniqueId

摘要： zipWithIndex def zipWithIndex(): RDD[(T, Long)] 该函数将RDD中的元素和这个元素在RDD中的ID（索引号）组合成键/值对。 zipWithUniqueId def zipWithUniqueId(): RDD[(T, Long)] 该函数将RDD中元素阅读全文

posted @ 2016-07-04 22:16 XGogo 阅读(2324) 评论(0) 推荐(0)

Spark算子：RDD基本转换操作(6)–zip、zipPartitions

摘要： zip def zip[U](other: RDD[U])(implicit arg0: ClassTag[U]): RDD[(T, U)] zip函数用于将两个RDD组合成Key/Value形式的RDD,这里默认两个RDD的partition数量以及元素数量都相同，否则会抛出异常。 zipPart 阅读全文

posted @ 2016-07-04 22:11 XGogo 阅读(325) 评论(0) 推荐(0)

Spark算子：RDD基本转换操作(4)–union、intersection、subtract

摘要： union def union(other: RDD[T]): RDD[T] 该函数比较简单，就是将两个RDD进行合并，不去重。 intersection def intersection(other: RDD[T]): RDD[T]def intersection(other: RDD[T], n 阅读全文

posted @ 2016-07-04 21:53 XGogo 阅读(505) 评论(0) 推荐(0)

Spark算子：RDD基本转换操作(5)–mapPartitions、

摘要：关键字：Spark算子、Spark RDD基本转换、mapPartitions、mapPartitionsWithIndex mapPartitions def mapPartitions[U](f: (Iterator[T]) => Iterator[U], preservesPartitioni 阅读全文

posted @ 2016-07-04 21:48 XGogo 阅读(3587) 评论(0) 推荐(0)

Scala Applications to Access Hadoop Data

摘要： One of the most recent and highly used functional programming language is Scala. It is used in some of the Hadoop ecosystem components like Apache Spa 阅读全文

posted @ 2016-07-04 17:54 XGogo 阅读(175) 评论(0) 推荐(0)

尧字节

明翼

公告