• 博客园logo
  • 会员
  • 众包
  • 新闻
  • 博问
  • 闪存
  • 赞助商
  • HarmonyOS
  • Chat2DB
    • 搜索
      所有博客
    • 搜索
      当前博客
  • 写随笔 我的博客 短消息 简洁模式
    用户头像
    我的博客 我的园子 账号设置 会员中心 简洁模式 ... 退出登录
    注册 登录
呢喃的歌声
博客园 | 首页 | 新随笔 | 新文章 | 联系 | 订阅 订阅 | 管理

2016年7月13日

spark新能优化之多次使用RDD的持久化或checkPoint
摘要: 如果程序中,对某一个RDD,基于它进行了多次transformation或者action操作。那么就非常有必要对其进行持久化操作,以避免对一个RDD反复进行计算。 此外,如果要保证在RDD的持久化数据可能丢失的情况下,还要保证高性能,那么可以对RDD进行Checkpoint操作。(也就是多次用到中间 阅读全文
posted @ 2016-07-13 17:47 呢喃的歌声 阅读(506) 评论(0) 推荐(0)
 
spark新能优化之广播共享数据
摘要: 如果你的算子函数中,使用到了特别大的数据,那么,这个时候,推荐将该数据进行广播。这样的话,就不至于将一个大数据拷贝到每一个task上去。而是给每个节点拷贝一份,然后节点上的task共享该数据。 这样的话,就可以减少大数据在节点上的内存消耗。并且可以减少数据到节点的网络传输消耗。 final Accu 阅读全文
posted @ 2016-07-13 17:44 呢喃的歌声 阅读(216) 评论(0) 推荐(0)
 
spark新能优化之reduceBykey和groupBykey的使用
摘要: val counts = pairs.reduceByKey(_ + _) val counts = pairs.groupByKey().map(wordCounts => (wordCounts._1, wordCounts._2.sum)) 如果能用reduceByKey,那就用reduceB 阅读全文
posted @ 2016-07-13 17:41 呢喃的歌声 阅读(875) 评论(0) 推荐(0)
 
spark新能优化之shuffle新能调优
摘要: shuffle调优参数 new SparkConf().set("spark.shuffle.consolidateFiles", "true") spark.shuffle.consolidateFiles:是否开启shuffle block file的合并,默认为false//设置从maPart 阅读全文
posted @ 2016-07-13 17:38 呢喃的歌声 阅读(271) 评论(0) 推荐(0)
 
spark新能优化之数据本地化
摘要: 数据本地化的背景: 数据本地化对于Spark Job性能有着巨大的影响。如果数据以及要计算它的代码是在一起的,那么性能当然会非常高。但是,如果数据和计算它的代码是分开的,那么其中之一必须到另外一方的机器上。通常来说,移动代码到其他节点,会比移动数据到代码所在的节点上去,速度要快得多,因为代码比较小。 阅读全文
posted @ 2016-07-13 16:05 呢喃的歌声 阅读(467) 评论(0) 推荐(0)
 
linux 下查看机器是cpu是几核的(转)
摘要: 几个cpu more /proc/cpuinfo |grep "physical id"|uniq|wc -l 每个cpu是几核(假设cpu配置相同) more /proc/cpuinfo |grep "physical id"|grep "0"|wc -l cat /proc/cpuinfo | 阅读全文
posted @ 2016-07-13 14:48 呢喃的歌声 阅读(971) 评论(0) 推荐(0)
 
spark新能优化之提高并行度
摘要: 实际上Spark集群的资源并不一定会被充分利用到,所以要尽量设置合理的并行度,来充分地利用集群的资源。才能充分提高Spark应用程序的性能。 Spark会自动设置以文件作为输入源的RDD的并行度,依据其大小,比如HDFS,就会给每一个block创建一个partition,也依据这个设置并行度。对于r 阅读全文
posted @ 2016-07-13 14:46 呢喃的歌声 阅读(912) 评论(0) 推荐(0)
 
spark新能优化之序列化的持久化级别
摘要: 除了对多次使用的RDD进行持久化操作之外,还可以进一步优化其性能。因为很有可能,RDD的数据是持久化到内存,或者磁盘中的。那么,此时,如果内存大小不是特别充足,完全可以使用序列化的持久化级别,比如MEMORY_ONLY_SER、MEMORY_AND_DISK_SER等。使用RDD.persist(S 阅读全文
posted @ 2016-07-13 11:25 呢喃的歌声 阅读(358) 评论(0) 推荐(0)
 
spark优化之优化数据结构
摘要: 概序: 要减少内存的消耗,除了使用高效的序列化类库以外,还有一个很重要的事情,就是优化数据结构。从而避免Java语法特性中所导致的额外内存的开销,比如基于指针的Java数据结构,以及包装类型。 有一个关键的问题,就是优化什么数据结构?其实主要就是优化你的算子函数,内部使用到的局部数据,或者是算子函数 阅读全文
posted @ 2016-07-13 10:49 呢喃的歌声 阅读(343) 评论(0) 推荐(0)
 
spark新能优化之序列化
摘要: 概叙: 在任何分布式系统中,序列化都是扮演着一个重要的角色的。如果使用的序列化技术,在执行序列化操作的时候很慢,或者是序列化后的数据还是很大,那么会让分布式应用程序的性能下降很多。所以,进行Spark性能优化的第一步,就是进行序列化的性能优化。 Spark自身默认就会在一些地方对数据进行序列化,比如 阅读全文
posted @ 2016-07-13 10:23 呢喃的歌声 阅读(851) 评论(0) 推荐(0)
 
 

公告


博客园  ©  2004-2025
浙公网安备 33010602011771号 浙ICP备2021040463号-3