大数据 - 随笔分类 - 聂政didi

spark trouble shooting之一：shuffle file cannot find、executor lost等等

摘要：有时候，如果你的spark作业处理的数据量特别特别大，几亿数据量；然后spark作业一运行，时不时报错，比如shuffle file cannot find，executor、task lost，out of memory；可能是说executor的堆外内存不太够用，导致executor在运行的过阅读全文

posted @ 2018-03-14 16:41 聂政didi 阅读(303) 评论(0) 推荐(0)

spark性能调优之五：数据计算本地化

摘要：spark在driver上，对application的每一个stage的task，进行分配之前都会计算出每个task要计算的是哪个分片数据，RDD的某个partition；spark的task分配算法，优先会希望每个task正好分配到它要计算的数据所在的节点，这样就不用在网络间传输数据；但是，如果阅读全文

posted @ 2018-03-12 12:11 聂政didi 阅读(326) 评论(0) 推荐(0)

spark性能调优之四：kryo序列化

摘要：spark支持使用kryo序列化机制。kryo序列化机制，比默认的java序列化机制，速度要快，序列化后的数据要更小，大概是java序列化机制的1/10，所以kryo序列化优化后，可以让网络传输的数据变少，在集群中耗费的内存资源大大减少。 kryo序列化机制，一旦启用以后，会生效的几个地方： 1、算阅读全文

posted @ 2018-03-12 11:15 聂政didi 阅读(3229) 评论(0) 推荐(0)

spark性能调优之三：广播机制broadcast

摘要：广播变量，初始的时候在driver上有一份副本。task在运行的时候，想要使用广播变量中的数据，首先会在本地的executor对应的BlockManager中尝试获取变量副本；如果没有，就从driver远程拉取变量副本，并保存在本地的BlockManager中；此后这个executor上的task，阅读全文

posted @ 2018-03-10 17:27 聂政didi 阅读(1281) 评论(0) 推荐(0)

spark性能调优之二：RDD重构和持久化

摘要：spark的RDD计算是lazy机制的，因此默认情况下，多次对同一个RDD执行算子，去获取不同的RDD，都会对这个RDD以及之前的父RDD，全部重新计算一次。因此： 1、RDD的架构需要优化和重构尽量去复用RDD，差不多的RDD，可以重构为一个共同的RDD，以供后面RDD计算时，反复使用。 2、公阅读全文

posted @ 2018-03-10 15:50 聂政didi 阅读(607) 评论(0) 推荐(0)

spark性能调优之一：分配更多资源

摘要：一、性能调优的王道，就是增加和分配更多的资源：首先第一步，就是调节最优的资源配置；在这个基础上，资源有限，才考虑性能调优的点。二、怎么配置资源，如下 spark-submit\ --class com.sparktest.wordcount \ --num-executors 4 \ 配置exec 阅读全文

posted @ 2018-03-10 14:26 聂政didi 阅读(289) 评论(0) 推荐(0)

华为大数据云issues

摘要：http://support.hwclouds.com/bigdata/index.html 阅读全文

posted @ 2017-06-07 13:32 聂政didi 阅读(130) 评论(0) 推荐(0)

格式化hdfs

摘要：多次格式化hdfs的集群，重新格式化会碰到java.io.IOException: NameNode is not formatted的问题。需要先格式化zookeeper 阅读全文

posted @ 2017-03-07 17:27 聂政didi 阅读(979) 评论(0) 推荐(0)

摘要：import org.elasticsearch.action.admin.indices.delete.DeleteIndexRequest; import org.elasticsearch.action.admin.indices.delete.DeleteIndexResponse; import org.elasticsearch.action.delete.DeleteRespons... 阅读全文

posted @ 2017-02-10 19:52 聂政didi 阅读(606) 评论(0) 推荐(0)

删除hbase的region步骤和代码

摘要：1、初始化hbase连接 2、删除Hbase表中Region中StartKey为2014000的Region及Meta中Region的元数据 3、创建一个新的region，其中Startkey为NULL 4、关闭hbase的连接阅读全文

posted @ 2017-02-09 21:57 聂政didi 阅读(3862) 评论(2) 推荐(0)

zookeeper持有者类

摘要：1 import org.apache.curator.RetryPolicy; 2 import org.apache.curator.framework.CuratorFramework; 3 import org.apache.curator.framework.CuratorFrameworkFactory; 4 import org.apache.curator.framewo... 阅读全文

posted @ 2017-02-09 21:09 聂政didi 阅读(165) 评论(0) 推荐(0)

zookeeper主节点竞争类

摘要：import com.alibaba.fastjson.JSON; import org.apache.curator.framework.CuratorFramework; import org.apache.curator.framework.imps.CuratorFrameworkState; import org.apache.curator.framework.recipes.cac... 阅读全文

posted @ 2017-02-09 21:04 聂政didi 阅读(769) 评论(0) 推荐(0)

hbase持有者工具类

摘要：1 import org.apache.commons.lang.StringUtils; 2 import org.apache.hadoop.conf.Configuration; 3 import org.apache.hadoop.hbase.*; 4 import org.apache.hadoop.hbase.client.*; 5 import org.apac... 阅读全文

posted @ 2017-02-09 21:02 聂政didi 阅读(1228) 评论(0) 推荐(0)

elasticsearch持有者类

摘要：import com.fasterxml.jackson.core.JsonProcessingException; import com.fasterxml.jackson.databind.ObjectMapper; import org.apache.commons.lang3.StringUtils; import org.elasticsearch.action.bulk.BulkIt... 阅读全文

posted @ 2017-02-09 20:48 聂政didi 阅读(417) 评论(0) 推荐(0)

kafka的生产者类

摘要：kafka的生产者类阅读全文

posted @ 2017-02-09 20:27 聂政didi 阅读(781) 评论(0) 推荐(0)

kafka的configuration

摘要：kafka的configuration 阅读全文

posted @ 2017-02-09 20:23 聂政didi 阅读(738) 评论(0) 推荐(0)

Kafka使用代码设置offset值

摘要：1 import kafka.common.*; 2 import kafka.common.OffsetAndMetadata; 3 import kafka.javaapi.*; 4 import kafka.network.BlockingChannel; 5 import org.apache.kafka.common.TopicPartition; 6 impo... 阅读全文

posted @ 2017-02-08 19:37 聂政didi 阅读(2319) 评论(1) 推荐(0)

金聂政

随笔分类 - 大数据