关于排障
- 手机看到告警后,先根据告警信息去对应的节点看影响不影响业务,磁盘告警看df 磁盘,文件不存在告警ls看文件,网路问题先ping主机,别的告警就去对应的日志log里看就行了,直接去最新生成的 shift+G最后一行。
最近对大数据运维做的比较多,遇到最多的报错,基本上就是资源不足,要么是租户yarn队列不足,要么是hdfs的空间不足,要么就是spark提交任务超时,还有就是oom内存溢出,没了,这就是我遇到的基本问题了。大部分都是因为yarn队列满了超时提交任务导致的。
本文来自博客园,作者:小二jerry,转载请注明原文链接:https://www.cnblogs.com/jassonWang/p/19581678
浙公网安备 33010602011771号