工业软件运维服务开发——维修监控与确认
持续创作,加速成长!这是我参与「掘金日新计划 · 10 月更文挑战」的第20天,点击查看活动详情
在工业软件开发的运维服务的维修监控与确认部分,在接受维修计划产生的工作单后,进行如下步骤:分配作业任务执行人,发起维修执行流程,监控维修任务的执行情况,并确认作业任务是否已经完成,最终完成工作订单的签署。
- 维修监控与确认流程
-
分配作业任务执行人,在接到的维修计划后,安排相应的工作人员进行值守。
-
发起维执行流程,根据用户的需求提供长期的用户现场技术人员值守服务,保证网络的实时连通和可用,保障接入交换机、汇聚交换机和核心交换机的正常运转。
-
监控维修任务的执行情况,在维修进程中现场值守人员还需要进行安全设备的日常运行状态的监控,对各种安全设备的日志检查,对重点事件进行记录,对安全事件的产生原因进行判断和解决,及时发现问题,防患于未然。
-
确认作业任务是否已经完成,最终完成工作订单的签署通过运行数据管理,实现同时对设备的运行数据进行记录,形成报表进行统计分析,便于进行网络系统的分析和故障的提前预知。具体记录的数据包括配置数据、性能数据、故障数据。
在固定的维修流程中,随着科技的逐步发展,智能传感器的发展也减少了未来维修监控的工作量,提高的维修监控的质量。实际上,改善状态监控和诊断并实现整体系统优化,是当今在使用机械设施和技术系统时面临的部分核心挑战。不仅在工业领域,在任何使用机械系统的地方都愈加重要,因此智能传感器的实时监控来对工业软件等工业用品进行预测与维修监控确认有决定性的优势。
2 工业软件方面的监控与确认
在工业软件上的监控与确认分为“指标”,“健康”和“异常收集”分别监控确认
1.指标
通常监控指标是会从系统、应用、业务等几个维度进行:
- 系统监控
主要是监控物理机、虚拟机、操作系统的运行情况,主要指标包括CPU、内存、磁盘、网络等,其他的一些相关的数据包括物理机运行时间、操作系统版本、操作系统内核,这些也是排查问题的一些基本依据。这里还需要重点说一下网络,微服务都是通过网络调用或被调用,一旦网络出现问题,整个微服务集群都是不可用的,所以网络监控需要细化到流量、数据包、丢包、错报、连接数等指标。
- 应用监控
主要是监控应用的运行情况,包括应用运行时间、http服务端口、服务url、http服务响应码、http服务响应时间、SQL、缓存命中、TPS、QPS等。对于Java应用,还需要包括JVM运行情况:JDK版本、内存使用(堆内存、非堆内存等)、GC等Java虚拟机运行情况。
- 业务监控
主要是监控一些核心业务执行情况,对业务有一定的侵入性,各个服务的指标不同,各家监控方式也不同,通常是埋码。比如监控登录注册、商品信息、库存情况、下单、支付、发货等各个业务[4]。
2.健康
一般健康检查是通过心跳检测进行的,通常会分为两种:
- 建立TCP链接,执行ping/pong调用
这种方式需要服务中与监控系统建立TCP链接,需要在服务中嵌入监控组件,对服务有侵入。但是因为其执行效率高,而且针对性强,不会出现漏报的情况。
- 监听服务端口
这种方式只需要在容器内或者虚拟机增加监控插件,对服务没什么侵入,但是由于端口可用和服务可用不是一个概念,所以会出现漏报的情况。
3.异常收集
异常分成两种,逻辑异常和行为异常。逻辑异常是说代码中存在异常逻辑。需要收集这些异常情况,并且能够定位异常发生的位置。异常信息收集主要是为了定位问题,所以上报的信息一定要全面而且容易定位。然后是要上报参数,用于还原现场。还要上报异常信息,用来分析异常情况。
一般会对于工业软件远程监控,用生产和设备运行监控系统进行设备监控和设备管理,通过先进的网络技术帮助企业进行设备管理和人员管理,建立信息化管理体系,减轻了技术人员数据处理和分析能力负担。提高设备管理效率

浙公网安备 33010602011771号