spark - 随笔分类 - Runner_Jack

SparkStreaming本地化策略性能调优与使用场景分析

摘要：1.背景介绍：平台使用的华为FI C203的版本，通过SparkStreaming消费kafka数据后，进行算法处理入库。其中在算法部分耗时为4秒，每个批的数据量在30MB左右。执行算法部分的算子分区数据从50调大至150，发现算法部分时间开销仍然在4秒左右，并未提高。 2.调优手段： spark. 阅读全文

posted @ 2019-12-27 15:15 Runner_Jack 阅读(349) 评论(0) 推荐(0)

Spark入Hbase的四种方式效率对比

摘要：一、方式介绍本次测试一种采用了四种方式进行了对比，分别是：1.在RDD内部调用java API。2、调用saveAsNewAPIHadoopDataset（）接口。3、saveAsHadoopDataset（）。4、BulkLoad方法。测试使用的大数据版本如下（均为单机版）：Hadoop2.7 阅读全文

posted @ 2019-03-05 23:06 Runner_Jack 阅读(5419) 评论(4) 推荐(0)

SparkStreaming HA高可用性

摘要：1、UpdateStateByKey、windows等有状态的操作时，自动进行checkpoint,必须设置checkpoint目录，数据保留一份在容错的文件系统中，一旦内存中的数据丢失，可以从文件系统中读取数据，不需要重新计算。 SparkStreaming.checkpoint("hdfs:// 阅读全文

posted @ 2018-09-20 23:34 Runner_Jack 阅读(1819) 评论(0) 推荐(0)

spark性能调优点（逐步完善）

摘要：1、使用高性能序列化类库2、优化数据结构3、对多次使用的RDD进行持久化/CheckPoint4、使用序列化的持久化级别5、Java虚拟机垃圾回收调优降低RDD缓存占用空间的比例：new SparkConf().set("spark.storage.memoryFraction","0.5"),从阅读全文

posted @ 2018-05-06 18:32 Runner_Jack 阅读(271) 评论(0) 推荐(0)

spark数据倾斜与解决方法

摘要：一、数据倾斜数据倾斜一般发生在对数据进行重新划分以及聚合的处理过程中。执行Spark作业时，数据倾斜一般发生在shuffle过程中，因为Spark的shuffle过程需要进行数据的重新划分处理。在执行shuffle过程中，Spark需要将各个节点上相同key的数据拉取到某个处理节点的task中进行阅读全文

posted @ 2018-01-10 14:14 Runner_Jack 阅读(3342) 评论(1) 推荐(1)

spark-2.1.1 yarn(高可用)搭建

摘要：一、概述 spark分布式搭建方式大致分为三种：standalone、yarn、mesos。三种分类的区别这里就不一一介绍了，不明白可自行了解。standalone是官方提供的一种集群方式，企业一般不使用。yarn集群方式在企业中应用是比较广泛的，这里也是介绍yarn的集群安装方式。mesos安装适阅读全文

posted @ 2017-09-27 11:23 Runner_Jack 阅读(4701) 评论(0) 推荐(0)

Runner_Jack

随笔分类 - spark

公告