2016 年 7月 13 日随笔档案 - 呢喃的歌声

spark新能优化之多次使用RDD的持久化或checkPoint

摘要：如果程序中，对某一个RDD，基于它进行了多次transformation或者action操作。那么就非常有必要对其进行持久化操作，以避免对一个RDD反复进行计算。此外，如果要保证在RDD的持久化数据可能丢失的情况下，还要保证高性能，那么可以对RDD进行Checkpoint操作。（也就是多次用到中间阅读全文

posted @ 2016-07-13 17:47 呢喃的歌声阅读(506) 评论(0) 推荐(0)

spark新能优化之广播共享数据

摘要：如果你的算子函数中，使用到了特别大的数据，那么，这个时候，推荐将该数据进行广播。这样的话，就不至于将一个大数据拷贝到每一个task上去。而是给每个节点拷贝一份，然后节点上的task共享该数据。这样的话，就可以减少大数据在节点上的内存消耗。并且可以减少数据到节点的网络传输消耗。 final Accu 阅读全文

posted @ 2016-07-13 17:44 呢喃的歌声阅读(216) 评论(0) 推荐(0)

spark新能优化之reduceBykey和groupBykey的使用

摘要： val counts = pairs.reduceByKey(_ + _) val counts = pairs.groupByKey().map(wordCounts => (wordCounts._1, wordCounts._2.sum)) 如果能用reduceByKey，那就用reduceB 阅读全文

posted @ 2016-07-13 17:41 呢喃的歌声阅读(875) 评论(0) 推荐(0)

spark新能优化之shuffle新能调优

摘要： shuffle调优参数 new SparkConf().set("spark.shuffle.consolidateFiles", "true") spark.shuffle.consolidateFiles：是否开启shuffle block file的合并，默认为false//设置从maPart 阅读全文

posted @ 2016-07-13 17:38 呢喃的歌声阅读(271) 评论(0) 推荐(0)

spark新能优化之数据本地化

摘要：数据本地化的背景: 数据本地化对于Spark Job性能有着巨大的影响。如果数据以及要计算它的代码是在一起的，那么性能当然会非常高。但是，如果数据和计算它的代码是分开的，那么其中之一必须到另外一方的机器上。通常来说，移动代码到其他节点，会比移动数据到代码所在的节点上去，速度要快得多，因为代码比较小。阅读全文

posted @ 2016-07-13 16:05 呢喃的歌声阅读(467) 评论(0) 推荐(0)

linux 下查看机器是cpu是几核的（转）

posted @ 2016-07-13 14:48 呢喃的歌声阅读(971) 评论(0) 推荐(0)

spark新能优化之提高并行度

摘要：实际上Spark集群的资源并不一定会被充分利用到，所以要尽量设置合理的并行度，来充分地利用集群的资源。才能充分提高Spark应用程序的性能。 Spark会自动设置以文件作为输入源的RDD的并行度，依据其大小，比如HDFS，就会给每一个block创建一个partition，也依据这个设置并行度。对于r 阅读全文

posted @ 2016-07-13 14:46 呢喃的歌声阅读(912) 评论(0) 推荐(0)

spark新能优化之序列化的持久化级别

摘要：除了对多次使用的RDD进行持久化操作之外，还可以进一步优化其性能。因为很有可能，RDD的数据是持久化到内存，或者磁盘中的。那么，此时，如果内存大小不是特别充足，完全可以使用序列化的持久化级别，比如MEMORY_ONLY_SER、MEMORY_AND_DISK_SER等。使用RDD.persist(S 阅读全文

posted @ 2016-07-13 11:25 呢喃的歌声阅读(358) 评论(0) 推荐(0)

spark优化之优化数据结构

摘要：概序：要减少内存的消耗，除了使用高效的序列化类库以外，还有一个很重要的事情，就是优化数据结构。从而避免Java语法特性中所导致的额外内存的开销，比如基于指针的Java数据结构，以及包装类型。有一个关键的问题，就是优化什么数据结构？其实主要就是优化你的算子函数，内部使用到的局部数据，或者是算子函数阅读全文

posted @ 2016-07-13 10:49 呢喃的歌声阅读(343) 评论(0) 推荐(0)

spark新能优化之序列化

摘要：概叙：在任何分布式系统中，序列化都是扮演着一个重要的角色的。如果使用的序列化技术，在执行序列化操作的时候很慢，或者是序列化后的数据还是很大，那么会让分布式应用程序的性能下降很多。所以，进行Spark性能优化的第一步，就是进行序列化的性能优化。 Spark自身默认就会在一些地方对数据进行序列化，比如阅读全文

posted @ 2016-07-13 10:23 呢喃的歌声阅读(851) 评论(0) 推荐(0)

2016年7月13日

公告