spark监控

一、背景

  实习的时候做了一段时间php + web前端,然后入职的时候开始做基础运维(python)以及web前端,顺便写了一两个structs页面的后台代码(java),现在准备专职做spark相关业务(scala)。这些经历现在回想起来,真是乱如麻,当初是怎么扛下来的。

  目前手上有10多台机器专门用于spark服务,准备接业务需求,需要做好相关监控,要是服务挂了,老板那不好过关。

二、监控项

  1.端口监控

     目前使用的是spark on yarn,因此需要监控resource manage 以及 node manage,准备加上公司那套端口监控服务

  2.application监控

     yarn提供一套rest api<详细链接>,基于这个API,我们可以通过脚本获得application运行的详细信息,目前尚未开发,这个星期内完成吧

  3.机器基础监控

     这个不用详述,很多公司应该都有一套基础监控系统,监控诸如磁盘,负载,swap等情况

      4.关键指标监控

     主要监控分析量,集群资源使用状况,公司做预算,写业绩的时候需要这样的数据。

三、待定

 这个帖子尚未写完,后续完成监控部署之后再来进行详细补充

posted on 2015-04-26 23:09  刘渊博  阅读(544)  评论(0)    收藏  举报

导航