随笔分类 - spark
摘要:1.背景介绍:平台使用的华为FI C203的版本,通过SparkStreaming消费kafka数据后,进行算法处理入库。其中在算法部分耗时为4秒,每个批的数据量在30MB左右。执行算法部分的算子分区数据从50调大至150,发现算法部分时间开销仍然在4秒左右,并未提高。 2.调优手段: spark.
阅读全文
摘要:一、方式介绍 本次测试一种采用了四种方式进行了对比,分别是:1.在RDD内部调用java API。2、调用saveAsNewAPIHadoopDataset()接口。3、saveAsHadoopDataset()。4、BulkLoad方法。 测试使用的大数据版本如下(均为单机版):Hadoop2.7
阅读全文
摘要:1、UpdateStateByKey、windows等有状态的操作时,自动进行checkpoint,必须设置checkpoint目录,数据保留一份在容错的文件系统中,一旦内存中的数据丢失,可以从文件系统中读取数据,不需要重新计算。 SparkStreaming.checkpoint("hdfs://
阅读全文
摘要:1、使用高性能序列化类库2、优化数据结构3、对多次使用的RDD进行持久化/CheckPoint4、使用序列化的持久化级别5、Java虚拟机垃圾回收调优 降低RDD缓存占用空间的比例:new SparkConf().set("spark.storage.memoryFraction","0.5"),从
阅读全文
摘要:一、数据倾斜 数据倾斜一般发生在对数据进行重新划分以及聚合的处理过程中。执行Spark作业时,数据倾斜一般发生在shuffle过程中,因为Spark的shuffle过程需要进行数据的重新划分处理。在执行shuffle过程中,Spark需要将各个节点上相同key的数据拉取到某个处理节点的task中进行
阅读全文
摘要:一、概述 spark分布式搭建方式大致分为三种:standalone、yarn、mesos。三种分类的区别这里就不一一介绍了,不明白可自行了解。standalone是官方提供的一种集群方式,企业一般不使用。yarn集群方式在企业中应用是比较广泛的,这里也是介绍yarn的集群安装方式。mesos安装适
阅读全文

浙公网安备 33010602011771号