进程守护系统,你懂吗?

1.什么是进程守护系统?  

  进程守护系统,用于监控指定的进程,当发现目标进程不再正常工作时,就关闭该进程,并重启它。

  在什么情况下使用进程守护系统了?比如说,我们的某个服务器软件,在上线后出现一个严重的bug,该bug虽然很难出现,但是只要一出现,整个服务都会停掉(进程没有崩溃,只是不再提供服务)。此时,重启服务软件,又会开始正常工作。

  对于这样严重的bug,必须要查清楚并解决掉的。但是,基于以下两个原因:

(1)系统已经对用户开放,服务不能停。不可能说系统先下线,直到bug被解决掉后再重新上线。

(2)bug很难重现,可能需要加日志,不断地跟踪排查,这很可能是一场持久战。

   为了让系统继续线上运行,在bug解决之前,必须要保证系统停止服务之后,能迅速重新启动恢复服务。此时,使用进程守护系统是最恰当不过的了。

   OrayGuard就是为达到这一目的,实现了一个进程守护系统。一个守护者程序,可以守护同一台机器上的多个进程。

  

 

2.进程守护系统的实现及使用

   OrayGuard守护者对被守护进程的管理使用的是心跳机制,其原理描述如下:

(1)被守护进程定时向守护者报告(发送心跳),以表明自己是在正常提供服务。

(2)如果守护者发现某个被守护进程连续一段时间都没有心跳过来,就关闭对应的进程,然后再启动对应的程序。

  在OrayGuard系统中,为了方便使用,已经做了很多工作,直接提供如下设施给使用者。

(1)在守护者这一方:提供了可直接运行的exe,双击即可运行起来。

(2)在被守护进程这一方:提供了OrayGuard.Core.dll,使用者只要调用其中的GuardianProxy静态类的几个方法,即可完成所有工作。 

    /// <summary>
    /// 与守护服务进行通信的Proxy,提供给被守护进程直接使用。
    /// </summary>
    public static class GuardianProxy
    {     /// <summary>
        /// 初始化Proxy,并向守护服务注册当前进程。
        /// </summary>
        /// <param name="guardServerPort">守护进程提供服务的Port</param>
        /// <param name="timeoutInSecs">超时间隔。单位:秒</param>
        public static void Initialize(int guardServerPort, int timeoutInSecs);

        /// <summary>
        /// 向守护服务激活当前进程一次。
        /// </summary>
        public static void Activate();

        /// <summary>
        /// 向守护服务注销当前进程。
        /// </summary>
        public static void Dispose();
    }

   在被守护方:

(1)进程启动时,调用GuardianProxy的Initialize方法,即可向守护者注册当前进程。(端口号就填守护者配置文件中设定的端口)

(2)进程内需要定时(比如10秒一次)检测自己是否仍在正常提供服务,如果是,则调用GuardianProxy的Activate方法,向守护者发送心跳。

(3)当进程正常退出时,调用GuardianProxy的Dispose方法向守护者注销。

 

 3.Demo以及下载

  最后,我们编写了一个用于演示的被守护进程的项目,整个系统运行起来后,效果如下:

      

   (注意:实际测试时,不要调试,而是要双击演示项目debug目录下的TestProcess.exe运行演示,否则,模拟故障后,演示进程会被关闭,但是无法被重启。因为,调试时,检测到的是TestProcess.vshost.exe)

   下载 OrayGuard。压缩包中包含如下内容:

(1)OrayGuard守护者:可直接运行的守护者程序。

(2)SDK:供被守护进程使用的SDK。

(3)TestProcess:用于演示的被守护进程的项目源码。

  

 更多分享:打通B/S与C/S !让HTML5 WebSocket与.NET Socket公用同一个服务端!

 

posted @ 2016-11-01 14:05 zhuweisky 阅读(...) 评论(...) 编辑 收藏