关于排障

  1. 手机看到告警后,先根据告警信息去对应的节点看影响不影响业务,磁盘告警看df 磁盘,文件不存在告警ls看文件,网路问题先ping主机,别的告警就去对应的日志log里看就行了,直接去最新生成的 shift+G最后一行。

最近对大数据运维做的比较多,遇到最多的报错,基本上就是资源不足,要么是租户yarn队列不足,要么是hdfs的空间不足,要么就是spark提交任务超时,还有就是oom内存溢出,没了,这就是我遇到的基本问题了。大部分都是因为yarn队列满了超时提交任务导致的。

posted on 2026-02-05 22:31  小二jerry  阅读(2)  评论(0)    收藏  举报