摘要:有时候,如果你的spark作业处理的数据量特别特别大,几亿数据量;然后spark作业一运行,时不时报错,比如shuffle file cannot find,executor、task lost,out of memory; 可能是说executor的堆外内存不太够用,导致executor在运行的过
阅读全文
摘要:spark在driver上,对application的每一个stage的task,进行分配之前都会计算出每个task要计算的是哪个分片数据,RDD的某个partition;spark的task分配算法,优先会希望每个task正好分配到它要计算的数据所在的节点,这样就不用在网络间传输数据; 但是,如果
阅读全文
摘要:spark支持使用kryo序列化机制。kryo序列化机制,比默认的java序列化机制,速度要快,序列化后的数据要更小,大概是java序列化机制的1/10,所以kryo序列化优化后,可以让网络传输的数据变少,在集群中耗费的内存资源大大减少。 kryo序列化机制,一旦启用以后,会生效的几个地方: 1、算
阅读全文
摘要:广播变量,初始的时候在driver上有一份副本。task在运行的时候,想要使用广播变量中的数据,首先会在本地的executor对应的BlockManager中尝试获取变量副本;如果没有,就从driver远程拉取变量副本,并保存在本地的BlockManager中;此后这个executor上的task,
阅读全文
摘要:spark的RDD计算是lazy机制的,因此默认情况下,多次对同一个RDD执行算子,去获取不同的RDD,都会对这个RDD以及之前的父RDD,全部重新计算一次。因此: 1、RDD的架构需要优化和重构 尽量去复用RDD,差不多的RDD,可以重构为一个共同的RDD,以供后面RDD计算时,反复使用。 2、公
阅读全文
摘要:一、性能调优的王道,就是增加和分配更多的资源:首先第一步,就是调节最优的资源配置;在这个基础上,资源有限,才考虑性能调优的点。 二、怎么配置资源,如下 spark-submit\ --class com.sparktest.wordcount \ --num-executors 4 \ 配置exec
阅读全文
摘要:http://support.hwclouds.com/bigdata/index.html
阅读全文
摘要:多次格式化hdfs的集群,重新格式化会碰到java.io.IOException: NameNode is not formatted的问题。需要先格式化zookeeper
阅读全文
摘要:import org.elasticsearch.action.admin.indices.delete.DeleteIndexRequest; import org.elasticsearch.action.admin.indices.delete.DeleteIndexResponse; import org.elasticsearch.action.delete.DeleteRespons...
阅读全文
摘要:1、初始化hbase连接 2、删除Hbase表中Region中StartKey为2014000的Region及Meta中Region的元数据 3、创建一个新的region,其中Startkey为NULL 4、关闭hbase的连接
阅读全文
摘要:1 import org.apache.curator.RetryPolicy; 2 import org.apache.curator.framework.CuratorFramework; 3 import org.apache.curator.framework.CuratorFrameworkFactory; 4 import org.apache.curator.framewo...
阅读全文
摘要:import com.alibaba.fastjson.JSON; import org.apache.curator.framework.CuratorFramework; import org.apache.curator.framework.imps.CuratorFrameworkState; import org.apache.curator.framework.recipes.cac...
阅读全文
摘要:1 import org.apache.commons.lang.StringUtils; 2 import org.apache.hadoop.conf.Configuration; 3 import org.apache.hadoop.hbase.*; 4 import org.apache.hadoop.hbase.client.*; 5 import org.apac...
阅读全文
摘要:import com.fasterxml.jackson.core.JsonProcessingException; import com.fasterxml.jackson.databind.ObjectMapper; import org.apache.commons.lang3.StringUtils; import org.elasticsearch.action.bulk.BulkIt...
阅读全文
摘要:1 import kafka.common.*; 2 import kafka.common.OffsetAndMetadata; 3 import kafka.javaapi.*; 4 import kafka.network.BlockingChannel; 5 import org.apache.kafka.common.TopicPartition; 6 impo...
阅读全文