2018年3月14日

摘要: 有时候,如果你的spark作业处理的数据量特别特别大,几亿数据量;然后spark作业一运行,时不时报错,比如shuffle file cannot find,executor、task lost,out of memory; 可能是说executor的堆外内存不太够用,导致executor在运行的过 阅读全文
posted @ 2018-03-14 16:41 聂政didi 阅读(260) 评论(0) 推荐(0) 编辑

2018年3月12日

摘要: spark在driver上,对application的每一个stage的task,进行分配之前都会计算出每个task要计算的是哪个分片数据,RDD的某个partition;spark的task分配算法,优先会希望每个task正好分配到它要计算的数据所在的节点,这样就不用在网络间传输数据; 但是,如果 阅读全文
posted @ 2018-03-12 12:11 聂政didi 阅读(298) 评论(0) 推荐(0) 编辑
摘要: spark支持使用kryo序列化机制。kryo序列化机制,比默认的java序列化机制,速度要快,序列化后的数据要更小,大概是java序列化机制的1/10,所以kryo序列化优化后,可以让网络传输的数据变少,在集群中耗费的内存资源大大减少。 kryo序列化机制,一旦启用以后,会生效的几个地方: 1、算 阅读全文
posted @ 2018-03-12 11:15 聂政didi 阅读(3115) 评论(0) 推荐(0) 编辑

2018年3月10日

摘要: 广播变量,初始的时候在driver上有一份副本。task在运行的时候,想要使用广播变量中的数据,首先会在本地的executor对应的BlockManager中尝试获取变量副本;如果没有,就从driver远程拉取变量副本,并保存在本地的BlockManager中;此后这个executor上的task, 阅读全文
posted @ 2018-03-10 17:27 聂政didi 阅读(1149) 评论(0) 推荐(0) 编辑
摘要: spark的RDD计算是lazy机制的,因此默认情况下,多次对同一个RDD执行算子,去获取不同的RDD,都会对这个RDD以及之前的父RDD,全部重新计算一次。因此: 1、RDD的架构需要优化和重构 尽量去复用RDD,差不多的RDD,可以重构为一个共同的RDD,以供后面RDD计算时,反复使用。 2、公 阅读全文
posted @ 2018-03-10 15:50 聂政didi 阅读(580) 评论(0) 推荐(0) 编辑
摘要: 一、性能调优的王道,就是增加和分配更多的资源:首先第一步,就是调节最优的资源配置;在这个基础上,资源有限,才考虑性能调优的点。 二、怎么配置资源,如下 spark-submit\ --class com.sparktest.wordcount \ --num-executors 4 \ 配置exec 阅读全文
posted @ 2018-03-10 14:26 聂政didi 阅读(272) 评论(0) 推荐(0) 编辑

2017年6月7日

摘要: http://support.hwclouds.com/bigdata/index.html 阅读全文
posted @ 2017-06-07 13:32 聂政didi 阅读(119) 评论(0) 推荐(0) 编辑

2017年5月24日

摘要: JAVA_OPTS="$JAVA_OPTS -XX:+UseCondCardMark" JAVA_OPTS="$JAVA_OPTS -XX:CMSWaitDuration=250" JAVA_OPTS="$JAVA_OPTS -XX:+UseParNewGC" JAVA_OPTS="$JAVA_OP 阅读全文
posted @ 2017-05-24 17:38 聂政didi 阅读(499) 评论(0) 推荐(0) 编辑

2017年3月7日

摘要: 多次格式化hdfs的集群,重新格式化会碰到java.io.IOException: NameNode is not formatted的问题。需要先格式化zookeeper 阅读全文
posted @ 2017-03-07 17:27 聂政didi 阅读(956) 评论(0) 推荐(0) 编辑
摘要: Linux下安装MySQL数据库 一、 下载安装包 1) wget http://www.cmake.org/files/v2.8/cmake-2.8.4.tar.gz 2) wget http://dev.mysql.com/get/Downloads/MySQL-5.6/mysql-5.6.15 阅读全文
posted @ 2017-03-07 13:18 聂政didi 阅读(159) 评论(0) 推荐(0) 编辑

导航