随笔分类 -  问题定位

摘要:ambari安装第一步是输入集群name,点击next时页面卡住不动,如下图: 注意到其中一个接口请求结果异常,http://ambari.server:8080/api/v1/version_definitions 重现如下: curl -u admin:admin "http://ambari. 阅读全文
posted @ 2019-01-15 18:57 匠人先生 阅读(2640) 评论(1) 推荐(2)
摘要:hive 2.1 一 问题 最近有一个场景,要向一个表的多个分区写数据,为了缩短执行时间,采用并发的方式,多个sql同时执行,分别写不同的分区,同时开启动态分区: set hive.exec.dynamic.partition=true insert overwrite table test_tab 阅读全文
posted @ 2018-12-27 16:12 匠人先生 阅读(10140) 评论(0) 推荐(0)
摘要:最近把一些sql执行从hive改到spark,发现执行更慢,sql主要是一些insert overwrite操作,从执行计划看到,用到InsertIntoHiveTable spark-sql> explain insert overwrite table test2 select * from t 阅读全文
posted @ 2018-12-21 11:45 匠人先生 阅读(8583) 评论(1) 推荐(1)
摘要:最近在hdfs写文件的时候发现一个问题,create写入正常,append写入报错,每次都能重现,代码示例如下: FileSystem fs = FileSystem.get(conf); OutputStream out = fs.create(file); IOUtils.copyBytes(i 阅读全文
posted @ 2018-12-21 11:08 匠人先生 阅读(1461) 评论(0) 推荐(0)
摘要:最近提交一个spark应用之后发现执行非常慢,点开spark web ui之后发现卡在一个job的一个stage上,这个stage有100000个task,但是绝大部分task都分配到两个executor上,其他executor非常空闲,what happened? 查看spark task分配逻辑 阅读全文
posted @ 2018-12-20 21:44 匠人先生 阅读(2230) 评论(0) 推荐(0)
摘要:spark 2.1.1 beeline连接spark thrift之后,执行use database有时会卡住,而use database 在server端对应的是 setCurrentDatabase, 经过排查发现当时spark thrift正在执行insert操作, org.apache.sp 阅读全文
posted @ 2018-12-19 19:38 匠人先生 阅读(948) 评论(0) 推荐(0)
摘要:spark 2.1.1 spark在写数据到hive外部表(底层数据在hbase中)时会报错 Caused by: java.lang.ClassCastException: org.apache.hadoop.hive.hbase.HiveHBaseTableOutputFormat cannot 阅读全文
posted @ 2018-12-18 16:15 匠人先生 阅读(2873) 评论(1) 推荐(1)
摘要:spark 2.1.1 spark里执行sql报错 insert overwrite table test_parquet_table select * from dummy 报错如下: org.apache.spark.SparkException: Task failed while writi 阅读全文
posted @ 2018-12-18 15:08 匠人先生 阅读(4914) 评论(1) 推荐(3)
摘要:公司一个kylin集群,每到周二下午就会逐个节点OOM退出,非常有规律,kylin集群5个节点,每个节点分配的内存已经不断增加到70多G,但是问题依旧; 经排查发现,每周二下午kylin集群的请求量确实会多一些,有可能是kylin的bug,也可能是其他原因,当节点kylin进程内存占用上升时,打印线 阅读全文
posted @ 2018-12-13 11:40 匠人先生 阅读(921) 评论(0) 推荐(1)
摘要:问题现象:hive执行sql报错 select count(*) from test_hive_table; 报错 Error: java.io.IOException: org.apache.hadoop.hbase.client.RetriesExhaustedException: Failed 阅读全文
posted @ 2018-12-12 18:50 匠人先生 阅读(5372) 评论(0) 推荐(0)
摘要:问题重现 rdd.repartition(1).write.csv(outPath) 写文件之后发现文件是压缩过的 write时首先会获取hadoopConf,然后从中获取是否压缩以及压缩格式 org.apache.spark.sql.execution.datasources.DataSource 阅读全文
posted @ 2018-12-12 17:25 匠人先生 阅读(2161) 评论(0) 推荐(0)
摘要:当两个表需要join时,如果一个是大表,一个是小表,正常的map-reduce流程需要shuffle,这会导致大表数据在节点间网络传输,常见的优化方式是将小表读到内存中并广播到大表处理,避免shuffle+reduce; 在hive中叫mapjoin(map-side join),配置为 hive. 阅读全文
posted @ 2018-12-12 17:09 匠人先生 阅读(7094) 评论(0) 推荐(0)
摘要:spark 2.1.1 一 问题重现 问题代码示例 object MethodPositionTest { val sparkConf = new SparkConf().setAppName("MethodPositionTest") val sc = new SparkContext(spark 阅读全文
posted @ 2018-12-12 16:28 匠人先生 阅读(3222) 评论(0) 推荐(0)
摘要:oozie中支持很多的action类型,比如spark、hive,对应的标签为: <spark xmlns="uri:oozie:spark-action:0.1"> ... oozie中sharelib用于存放每个action类型需要的依赖,可以查看当前所有的action类型以及每个action类 阅读全文
posted @ 2018-12-12 16:08 匠人先生 阅读(3722) 评论(0) 推荐(0)
摘要:spark 2.1.1 一 问题重现 spark-submit --master local[*] --class app.package.AppClass --jars /jarpath/zkclient-0.3.jar --driver-memory 1g app.jar 报错 Java Hot 阅读全文
posted @ 2018-12-12 15:38 匠人先生 阅读(2887) 评论(0) 推荐(0)
摘要:Spark2.1.1 最近运行spark任务时会发现任务经常运行很久,具体job如下: Job Id ▾ Description Submitted Duration Stages: Succeeded/Total Tasks (for all stages): Succeeded/Total 16 阅读全文
posted @ 2018-12-03 18:21 匠人先生 阅读(7494) 评论(0) 推荐(2)
摘要:一 问题 Dubbo monitor所在服务器状态异常,iowait一直很高,load也一直很高,监控如下: iowait如图: load如图: 二 分析 通过iotop命令可以查看当前系统中磁盘io情况以及进程占用磁盘io的情况 从中可以定位到占用io进程的pid; 通过 cat /proc/${ 阅读全文
posted @ 2018-11-07 17:11 匠人先生 阅读(1250) 评论(0) 推荐(0)
摘要:kafka0.8.1 一 问题 10月22号应用系统忽然报错: [2014/12/22 11:52:32.738]java.net.SocketException: 打开的文件过多 [2014/12/22 11:52:32.738] at java.net.Socket.createImpl(Soc 阅读全文
posted @ 2018-11-07 16:17 匠人先生 阅读(7548) 评论(2) 推荐(2)
摘要:kafka_2.8.0-0.8.1 一 现象 生产环境一组kafka集群经常发生问题,现象是kafka在zookeeper上的broker节点消失,此时kafka进程和端口都在,然后每个broker都在报错,主要是 1) [2017-01-09 12:40:53,832] INFO Partitio 阅读全文
posted @ 2018-11-07 15:50 匠人先生 阅读(4143) 评论(0) 推荐(0)
摘要:kafka0.8.1 一 问题现象 生产环境kafka服务器134、135、136分别在10月11号、10月13号挂掉: 134日志 [2014-10-13 16:45:41,902] FATAL [KafkaApi-134] Halting due to unrecoverable I/O err 阅读全文
posted @ 2018-11-07 15:25 匠人先生 阅读(2344) 评论(1) 推荐(0)