一次线上问题的解决

线上发现服务cpu使用达到98%,负载高达200多,64核心cpu,下面介绍解决过程:

1.top命令查出占用cpu高的进程pid

2.使用jstack -l pid >dump.txt 获取dump文件

3.使用top -H查询出消耗资源的线程号tid(十进制线程id),转换为16进制

4.cat dump.txt | grep -10 tid(16进制) 查询出该进程号上下10行,定位问题并解决问题

=====================================================

1.使用top命令

2.jstack -l pid >dump.txt 获取dump文件

3.使用top -H查询出消耗资源的线程号tid(十进制线程id),转换为16进制  ,10587转换成十六进制后为295B,转换成小写为295b

 

4.cat dump.txt | grep -10 tid(16进制) 查询出该进程号上下10行,定位问题并解决问题

cat dump.txt | grep -10 295b

 

发现问题在hashMap的get方法,count发现有200多个的runnable状态在调用hashMap的get方法,经过查找ServiceBuilder的第592行发现在一个公共静态方法中使用了一个类全局变量的HashMap作为 共享变量被并发使用,第592行是get方法,经过查找发现在1.7的get方法中有e.next();方法造成cpu无限循环。于是把HashMap改成了ConcurrentHashMap.问题应该解决了,待上线验证。(注该问题不一定会100%发生)

 

另见(关于hashMap的循环bug):http://ifeve.com/hashmap-infinite-loop/

posted on 2016-12-22 21:48  张释文  阅读(1711)  评论(0编辑  收藏  举报