随笔分类 -  大数据

spark trouble shooting之一:shuffle file cannot find、executor lost等等
摘要:有时候,如果你的spark作业处理的数据量特别特别大,几亿数据量;然后spark作业一运行,时不时报错,比如shuffle file cannot find,executor、task lost,out of memory; 可能是说executor的堆外内存不太够用,导致executor在运行的过 阅读全文

posted @ 2018-03-14 16:41 聂政didi 阅读(303) 评论(0) 推荐(0)

spark性能调优之五:数据计算本地化
摘要:spark在driver上,对application的每一个stage的task,进行分配之前都会计算出每个task要计算的是哪个分片数据,RDD的某个partition;spark的task分配算法,优先会希望每个task正好分配到它要计算的数据所在的节点,这样就不用在网络间传输数据; 但是,如果 阅读全文

posted @ 2018-03-12 12:11 聂政didi 阅读(326) 评论(0) 推荐(0)

spark性能调优之四:kryo序列化
摘要:spark支持使用kryo序列化机制。kryo序列化机制,比默认的java序列化机制,速度要快,序列化后的数据要更小,大概是java序列化机制的1/10,所以kryo序列化优化后,可以让网络传输的数据变少,在集群中耗费的内存资源大大减少。 kryo序列化机制,一旦启用以后,会生效的几个地方: 1、算 阅读全文

posted @ 2018-03-12 11:15 聂政didi 阅读(3229) 评论(0) 推荐(0)

spark性能调优之三:广播机制broadcast
摘要:广播变量,初始的时候在driver上有一份副本。task在运行的时候,想要使用广播变量中的数据,首先会在本地的executor对应的BlockManager中尝试获取变量副本;如果没有,就从driver远程拉取变量副本,并保存在本地的BlockManager中;此后这个executor上的task, 阅读全文

posted @ 2018-03-10 17:27 聂政didi 阅读(1281) 评论(0) 推荐(0)

spark性能调优之二:RDD重构和持久化
摘要:spark的RDD计算是lazy机制的,因此默认情况下,多次对同一个RDD执行算子,去获取不同的RDD,都会对这个RDD以及之前的父RDD,全部重新计算一次。因此: 1、RDD的架构需要优化和重构 尽量去复用RDD,差不多的RDD,可以重构为一个共同的RDD,以供后面RDD计算时,反复使用。 2、公 阅读全文

posted @ 2018-03-10 15:50 聂政didi 阅读(607) 评论(0) 推荐(0)

spark性能调优之一:分配更多资源
摘要:一、性能调优的王道,就是增加和分配更多的资源:首先第一步,就是调节最优的资源配置;在这个基础上,资源有限,才考虑性能调优的点。 二、怎么配置资源,如下 spark-submit\ --class com.sparktest.wordcount \ --num-executors 4 \ 配置exec 阅读全文

posted @ 2018-03-10 14:26 聂政didi 阅读(289) 评论(0) 推荐(0)

华为大数据云issues
摘要:http://support.hwclouds.com/bigdata/index.html 阅读全文

posted @ 2017-06-07 13:32 聂政didi 阅读(130) 评论(0) 推荐(0)

格式化hdfs
摘要:多次格式化hdfs的集群,重新格式化会碰到java.io.IOException: NameNode is not formatted的问题。需要先格式化zookeeper 阅读全文

posted @ 2017-03-07 17:27 聂政didi 阅读(979) 评论(0) 推荐(0)

elasticsearch的操作类
摘要:import org.elasticsearch.action.admin.indices.delete.DeleteIndexRequest; import org.elasticsearch.action.admin.indices.delete.DeleteIndexResponse; import org.elasticsearch.action.delete.DeleteRespons... 阅读全文

posted @ 2017-02-10 19:52 聂政didi 阅读(606) 评论(0) 推荐(0)

删除hbase的region步骤和代码
摘要:1、初始化hbase连接 2、删除Hbase表中Region中StartKey为2014000的Region及Meta中Region的元数据 3、创建一个新的region,其中Startkey为NULL 4、关闭hbase的连接 阅读全文

posted @ 2017-02-09 21:57 聂政didi 阅读(3862) 评论(2) 推荐(0)

zookeeper持有者类
摘要:1 import org.apache.curator.RetryPolicy; 2 import org.apache.curator.framework.CuratorFramework; 3 import org.apache.curator.framework.CuratorFrameworkFactory; 4 import org.apache.curator.framewo... 阅读全文

posted @ 2017-02-09 21:09 聂政didi 阅读(165) 评论(0) 推荐(0)

zookeeper主节点竞争类
摘要:import com.alibaba.fastjson.JSON; import org.apache.curator.framework.CuratorFramework; import org.apache.curator.framework.imps.CuratorFrameworkState; import org.apache.curator.framework.recipes.cac... 阅读全文

posted @ 2017-02-09 21:04 聂政didi 阅读(769) 评论(0) 推荐(0)

hbase持有者工具类
摘要:1 import org.apache.commons.lang.StringUtils; 2 import org.apache.hadoop.conf.Configuration; 3 import org.apache.hadoop.hbase.*; 4 import org.apache.hadoop.hbase.client.*; 5 import org.apac... 阅读全文

posted @ 2017-02-09 21:02 聂政didi 阅读(1228) 评论(0) 推荐(0)

elasticsearch持有者类
摘要:import com.fasterxml.jackson.core.JsonProcessingException; import com.fasterxml.jackson.databind.ObjectMapper; import org.apache.commons.lang3.StringUtils; import org.elasticsearch.action.bulk.BulkIt... 阅读全文

posted @ 2017-02-09 20:48 聂政didi 阅读(417) 评论(0) 推荐(0)

kafka的生产者类
摘要:kafka的生产者类 阅读全文

posted @ 2017-02-09 20:27 聂政didi 阅读(781) 评论(0) 推荐(0)

kafka的configuration
摘要:kafka的configuration 阅读全文

posted @ 2017-02-09 20:23 聂政didi 阅读(738) 评论(0) 推荐(0)

Kafka使用代码设置offset值
摘要:1 import kafka.common.*; 2 import kafka.common.OffsetAndMetadata; 3 import kafka.javaapi.*; 4 import kafka.network.BlockingChannel; 5 import org.apache.kafka.common.TopicPartition; 6 impo... 阅读全文

posted @ 2017-02-08 19:37 聂政didi 阅读(2319) 评论(1) 推荐(0)

导航