arthas-boot，排查k8s容器内存问题

curl -O https://arthas.aliyun.com/arthas-boot.jar
java -jar arthas-boot.jar

# 1. 本地下载 Arthas
curl -O https://arthas.aliyun.com/arthas-boot.jar

# 2. 复制到容器
kubectl cp arthas-boot.jar cyberwedge/cyberwedgepro-5df57fc59c-gx5lp:/tmp/

# 3. 进入容器并启动
kubectl exec -it cyberwedgepro-5df57fc59c-gx5lp -n cyberwedge -- sh
java -jar /tmp/arthas-boot.jar

在 Kubernetes 环境中排查 JVM 和内存问题时，可以结合 Arthas、Kubernetes 原生工具以及 JVM 自带工具进行全面分析。以下是具体的排查步骤和方法：

一、确认容器重启原因

首先需要确认容器是否因内存问题重启：

bash
 

# 查看Pod重启次数和状态
kubectl get pods cyberwedgepro-5df57fc59c-gx5lp -n cyberwedge

# 获取详细事件，查看是否有OOMKilled或内存相关错误
kubectl describe pod cyberwedgepro-5df57fc59c-gx5lp -n cyberwedge | grep -i "oom\|memory"

关键信息：
- 如果事件中包含 OOMKilled，说明容器因内存不足被 Kubernetes 终止。
- 如果没有明显提示，需进一步分析 JVM 内部状态。

二、使用 Arthas 分析 JVM 内存

通过 Arthas 获取 JVM 内存使用的实时数据：

bash
 
# 进入容器并启动Arthas
kubectl exec -it cyberwedgepro-5df57fc59c-gx5lp -n cyberwedge -- sh
java -jar /tmp/arthas-boot.jar  # 选择对应的Java进程ID

# 在Arthas中执行以下命令
[arthas@12345]$ jvm  # 查看JVM整体状态，重点关注内存部分
[arthas@12345]$ dashboard  # 实时监控线程、内存、GC等指标

关键指标分析：

Heap Memory Usage：堆内存使用情况，检查是否接近或达到 -Xmx 设置的上限（1GB）。
GC Statistics：GC 频率和耗时，频繁的 Full GC 可能导致应用停顿甚至崩溃。
Non-Heap Memory：元空间（Metaspace）使用情况，检查是否有泄漏（持续增长）。

三、生成并分析堆转储文件

如果怀疑内存泄漏，生成堆转储文件进行离线分析：

bash
 
# 在Arthas中生成堆转储文件
[arthas@12345]$ heapdump /data/service/dump/heap_$(date +%s).hprof

# 将堆转储文件下载到本地
kubectl cp cyberwedge/cyberwedgepro-5df57fc59c-gx5lp:/data/service/dump/heap_*.hprof ./

# 使用MAT（Memory Analyzer Tool）或VisualVM分析堆文件

分析重点：

查找大对象（如巨型数组、集合）占用大量内存。
检查对象引用链，确认是否存在内存泄漏（如静态集合持有对象不释放）。
对比多个时间点的堆转储文件，观察哪些对象在持续增长。

四、检查 GC 日志

查看 GC 日志，分析垃圾回收的频率和效率：

bash
 
# 查看GC日志文件
kubectl exec cyberwedgepro-5df57fc59c-gx5lp -n cyberwedge -- cat /data/service/dump/gc.log

# 或使用Arthas动态监控GC情况
[arthas@12345]$ vmoption PrintGCDetails true  # 确保开启GC详情
[arthas@12345]$ watch java.lang.Runtime gc -x 2  # 监控GC调用

关键指标：

YGC（Young GC）频率：过于频繁的 YGC 可能表示新生代空间设置过小。
FGC（Full GC）频率：频繁 FGC 通常意味着老年代空间不足或存在内存泄漏。
GC 耗时：单次 GC 时间过长会导致应用响应变慢甚至停顿。

五、分析线程状态

检查是否存在线程阻塞或死锁导致的资源耗尽：

bash
 
# 在Arthas中查看线程状态
[arthas@12345]$ thread  # 查看所有线程状态
[arthas@12345]$ thread -b  # 检测死锁
[arthas@12345]$ thread -n 3  # 查看最消耗CPU的3个线程

常见问题：

BLOCKED 状态线程：检查等待的锁资源，可能存在死锁或锁竞争。
WAITING/TIMED_WAITING 状态线程：长时间等待可能表示资源不足或线程池配置不合理。

六、检查 JVM 参数与 Kubernetes 资源限制的匹配性

你的 Pod 配置中存在 JVM 参数与 Kubernetes 资源限制不匹配的问题：

yaml
 
# JVM参数（1GB堆内存）
value: >-
  -Xms1g -Xmx1g ...

# Kubernetes资源限制（1.5GB）
limits:
  memory: '1610612736'  # 约1.5GB

建议调整：

保持一致：将 JVM 堆内存参数（-Xmx）调整为与 Kubernetes 限制相同或略小（如 -Xmx1400m）。
添加直接内存限制：Java 应用可能使用堆外内存，需添加 -XX:MaxDirectMemorySize=200m 避免超出 Kubernetes 限制。

七、验证 NFS 存储挂载

如果应用将数据写入 /data/service/dump（NFS 挂载点），检查挂载是否正常：

bash
 
# 进入容器检查文件系统
kubectl exec -it cyberwedgepro-5df57fc59c-gx5lp -n cyberwedge -- sh
df -h  # 查看磁盘使用情况
ls -l /data/service/dump  # 确认目录可访问

常见问题：

NFS 服务器不可用导致应用崩溃。
磁盘空间不足导致堆转储或日志写入失败。

八、调整资源配置与监控

根据分析结果调整资源配置，并设置监控告警：

yaml
 
 

# 优化后的Deployment配置片段
resources:
  limits:
    cpu: '2'
    memory: '1500Mi'  # 明确使用MiB单位
  requests:
    cpu: '1'
    memory: '1000Mi'  # 请求资源低于限制，避免资源过度承诺

env:
  - name: JAVA_OPTIONS
    value: >-
      -Dserver.port=7405
      -Xms1000m -Xmx1000m  # 与Kubernetes requests保持一致
      -Xmn500m -XX:SurvivorRatio=8
      -XX:MetaspaceSize=64m -XX:MaxMetaspaceSize=128m
      -XX:+PrintGCDateStamps -XX:+PrintGCDetails
      -XX:+HeapDumpOnOutOfMemoryError -XX:+ExitOnOutOfMemoryError
      -XX:HeapDumpPath=/data/service/dump/dump.hprof
      -XX:MaxDirectMemorySize=200m  # 限制直接内存
      -Xloggc:/data/service/dump/gc.log

 

在 Kubernetes 环境中排查 JVM 和内存问题时，可以结合 Arthas、Kubernetes 原生工具以及 JVM 自带工具进行全面分析。以下是具体的排查步骤和方法：

一、确认容器重启原因

首先需要确认容器是否因内存问题重启：

bash

# 查看Pod重启次数和状态
kubectl get pods cyberwedgepro-5df57fc59c-gx5lp -n cyberwedge

# 获取详细事件，查看是否有OOMKilled或内存相关错误
kubectl describe pod cyberwedgepro-5df57fc59c-gx5lp -n cyberwedge | grep -i "oom\|memory"

关键信息：
- 如果事件中包含 OOMKilled，说明容器因内存不足被 Kubernetes 终止。
- 如果没有明显提示，需进一步分析 JVM 内部状态。

二、使用 Arthas 分析 JVM 内存

通过 Arthas 获取 JVM 内存使用的实时数据：

bash

# 进入容器并启动Arthas
kubectl exec -it cyberwedgepro-5df57fc59c-gx5lp -n cyberwedge -- sh
java -jar /tmp/arthas-boot.jar  # 选择对应的Java进程ID

# 在Arthas中执行以下命令
[arthas@12345]$ jvm  # 查看JVM整体状态，重点关注内存部分
[arthas@12345]$ dashboard  # 实时监控线程、内存、GC等指标

 

关键指标分析：

Heap Memory Usage：堆内存使用情况，检查是否接近或达到 -Xmx 设置的上限（1GB）。
GC Statistics：GC 频率和耗时，频繁的 Full GC 可能导致应用停顿甚至崩溃。
Non-Heap Memory：元空间（Metaspace）使用情况，检查是否有泄漏（持续增长）。

三、生成并分析堆转储文件

如果怀疑内存泄漏，生成堆转储文件进行离线分析：

bash

# 在Arthas中生成堆转储文件
[arthas@12345]$ heapdump /data/service/dump/heap_$(date +%s).hprof

# 将堆转储文件下载到本地
kubectl cp cyberwedge/cyberwedgepro-5df57fc59c-gx5lp:/data/service/dump/heap_*.hprof ./

# 使用MAT（Memory Analyzer Tool）或VisualVM分析堆文件

分析重点：

查找大对象（如巨型数组、集合）占用大量内存。
检查对象引用链，确认是否存在内存泄漏（如静态集合持有对象不释放）。
对比多个时间点的堆转储文件，观察哪些对象在持续增长。

四、检查 GC 日志

查看 GC 日志，分析垃圾回收的频率和效率：

bash

# 查看GC日志文件
kubectl exec cyberwedgepro-5df57fc59c-gx5lp -n cyberwedge -- cat /data/service/dump/gc.log

# 或使用Arthas动态监控GC情况
[arthas@12345]$ vmoption PrintGCDetails true  # 确保开启GC详情
[arthas@12345]$ watch java.lang.Runtime gc -x 2  # 监控GC调用

 

关键指标：

YGC（Young GC）频率：过于频繁的 YGC 可能表示新生代空间设置过小。
FGC（Full GC）频率：频繁 FGC 通常意味着老年代空间不足或存在内存泄漏。
GC 耗时：单次 GC 时间过长会导致应用响应变慢甚至停顿。

五、分析线程状态

检查是否存在线程阻塞或死锁导致的资源耗尽：

bash

# 在Arthas中查看线程状态
[arthas@12345]$ thread  # 查看所有线程状态
[arthas@12345]$ thread -b  # 检测死锁
[arthas@12345]$ thread -n 3  # 查看最消耗CPU的3个线程

 

常见问题：

BLOCKED 状态线程：检查等待的锁资源，可能存在死锁或锁竞争。
WAITING/TIMED_WAITING 状态线程：长时间等待可能表示资源不足或线程池配置不合理。

六、检查 JVM 参数与 Kubernetes 资源限制的匹配性

你的 Pod 配置中存在 JVM 参数与 Kubernetes 资源限制不匹配的问题：

yaml
 
# JVM参数（1GB堆内存）
value: >-
  -Xms1g -Xmx1g ...

# Kubernetes资源限制（1.5GB）
limits:
  memory: '1610612736'  # 约1.5GB

建议调整：

保持一致：将 JVM 堆内存参数（-Xmx）调整为与 Kubernetes 限制相同或略小（如 -Xmx1400m）。
添加直接内存限制：Java 应用可能使用堆外内存，需添加 -XX:MaxDirectMemorySize=200m 避免超出 Kubernetes 限制。

七、验证 NFS 存储挂载

如果应用将数据写入 /data/service/dump（NFS 挂载点），检查挂载是否正常：

bash

# 进入容器检查文件系统
kubectl exec -it cyberwedgepro-5df57fc59c-gx5lp -n cyberwedge -- sh
df -h  # 查看磁盘使用情况
ls -l /data/service/dump  # 确认目录可访问

 

常见问题：

NFS 服务器不可用导致应用崩溃。
磁盘空间不足导致堆转储或日志写入失败。

八、调整资源配置与监控

根据分析结果调整资源配置，并设置监控告警：

yaml

# 优化后的Deployment配置片段
resources:
  limits:
    cpu: '2'
    memory: '1500Mi'  # 明确使用MiB单位
  requests:
    cpu: '1'
    memory: '1000Mi'  # 请求资源低于限制，避免资源过度承诺

env:
  - name: JAVA_OPTIONS
    value: >-
      -Dserver.port=7405
      -Xms1000m -Xmx1000m  # 与Kubernetes requests保持一致
      -Xmn500m -XX:SurvivorRatio=8
      -XX:MetaspaceSize=64m -XX:MaxMetaspaceSize=128m
      -XX:+PrintGCDateStamps -XX:+PrintGCDetails
      -XX:+HeapDumpOnOutOfMemoryError -XX:+ExitOnOutOfMemoryError
      -XX:HeapDumpPath=/data/service/dump/dump.hprof
      -XX:MaxDirectMemorySize=200m  # 限制直接内存
      -Xloggc:/data/service/dump/gc.log

 

九、长期监控建议

集成 Prometheus+Grafana：通过 JMX Exporter 采集 JVM 指标，创建内存监控仪表盘。
设置告警规则：对 OOMKilled 事件、频繁 GC、高内存使用率等设置告警。
定期分析堆转储：在生产环境周期性生成堆转储文件，建立内存使用基线。

通过以上步骤，可全面排查 JVM 和内存问题，定位容器重启的根本原因，并优化应用性能和稳定性。

九、长期监控建议

集成 Prometheus+Grafana：通过 JMX Exporter 采集 JVM 指标，创建内存监控仪表盘。
设置告警规则：对 OOMKilled 事件、频繁 GC、高内存使用率等设置告警。
定期分析堆转储：在生产环境周期性生成堆转储文件，建立内存使用基线。

通过以上步骤，可全面排查 JVM 和内存问题，定位容器重启的根本原因，并优化应用性能和稳定性。

posted @ 2025-05-19 14:35 自然观察家阅读(238) 评论(0) 收藏举报

刷新页面返回顶部

风之旅行者

测试同学自写笔记

arthas-boot，排查k8s容器内存问题

一、确认容器重启原因

二、使用 Arthas 分析 JVM 内存

三、生成并分析堆转储文件

四、检查 GC 日志

五、分析线程状态

六、检查 JVM 参数与 Kubernetes 资源限制的匹配性

七、验证 NFS 存储挂载

八、调整资源配置与监控

一、确认容器重启原因

二、使用 Arthas 分析 JVM 内存

三、生成并分析堆转储文件

四、检查 GC 日志

五、分析线程状态

六、检查 JVM 参数与 Kubernetes 资源限制的匹配性

七、验证 NFS 存储挂载

八、调整资源配置与监控

九、长期监控建议

九、长期监控建议

公告