自动化运维(AMP)简介

自动化运维(AMP)简介

什么是自动化运维?

新炬网络自动化运维平台“DataYun AMP”是一款拥有极佳扩展性的IT系统自动化运维平台,通过AMP的各种插件,能实现对从基础设施到应用的全面监控、告警及管理,并通过自动化巡检、自动配置更新、自动补丁分发、智能故障诊断、批量远程执行和任务分发管理等功能,将大量重复劳动自动化,帮助用户提升运维管理质量并降低运维成本。

新炬网络自动化运维平台

•通过监控告警引擎,实现应用软件、中间件、数据库、主机、网络、存储、云资源的全方位监控告警。

•通过自动化运维调度引擎所提供强大的自动化运维能力,可通过平台完成巡检、性能分析、文件下发、故障诊断等自动化运维任务。

•通过大数据技术,对海量日志信息进行收集存储,并提供实时搜索功能,辅助快速定位故障,同时通过对海量日志的分析,得出系统运营情况。

自动化运维(AMP)特色功能介绍

新炬网络自动化运维能帮助企业做什么?DataYun AMP可以为企业提供从“监控警告->自动运维->日志出来”全过程的功能实现。

监控警告相关

► 大规模监控能力

AMP架构具有大规模横向扩展能力,通过横向扩展,AMP能实现同时对上万台设备的监控,监控项数目可达百万级别。

► 全方位监控告警

通过AMP,可以实现对硬件信息(含CPU温度,电压),主机,存储,云主机(VMWare),网络设备,操作系统,中间件,数据库,应用(拨测,业务指标),通过统一监控告警。覆盖几乎所有主流IT软硬件设备。

► 灵活的警告策略

通过灵活的告警策略配置,实现精确告警,避免告警风暴,减少无效告警,降低运维压力。

.

► 告警自动消除

自动告警处理:根据告警触发条件预定义相应的运维操作,自动调度运维操作以消除告警,例如:文件系统空间已满,则可以预设清除日志的操作,降低告警处理工作量,极大的提高了告警处理的及时性,降低系 统故障影响业务的风险。

► 数据库专业化监控

通过数据库专业配置库、SQL语句、会话、等待事件、前瞻性趋势分析,建立专业化的数据库监控体系,为数据库性能优化、预防性维护、故障分析、扩容规划提供全方位支撑。
通过数据库专业化监控,可实现数据库资源消耗精确分析、优化以及预测;可精确的掌握数据库的配置变更。通过数据库运维自动化工具,快速定位数据库性能问题,大大提高运维效率。

•监控多维度TOP SQL,提供辅助SQL优化工具,提升工作效率;

•预测容量短缺和瓶颈出现时间;

•监控阻塞会话、长会话、细化异常等待事件监控,预防故障;

•Oracle数据库缓存命中率、SGA大小、PGA大小等指标;

•针对获取到的指标进行自动分析,并提供图表、列表等方式展现;

•通过上述信息,运维人员能迅速定位数据库性能问题,降低故障恢复时间。

► 自动化发现、接入向导功能

自发现功能可以自动发现设备,VMWare虚拟机,并添加到系统监控,可以自动发现设备文件系统目录,网络接口以及数据库表空间信息。
接入向导,能一次性快速接入数百台节点。采用向导方式提供从客户端操作文档下载、批量导入设备、自发现设备、接入校验到接入完成后的指引整个接入流程,可快速完成设备接入。

自动化运维相关

► 自动化巡检

自动化巡检对象包括主机、数据库、中间件、应用在内的所有监控对象;自动化巡检无需另外单独进行部署,直接使用系统监控采集项;系统已经预定义了数据库、中间件、主机等的部分日常标准巡检;

•可通过平台自动获取巡检结果,避免失误、遗漏,确保巡检结果的准确性、全面性。

•巡检的指标、巡检范围可以根据需求扩展。

•运维人员把更多的时间花在对巡检结果的分析中,从而确保系统健康、稳定运行。

► 文件批量下发

•在平台上,上传需要下发的文件后,在平台上点选文件需要被下发的主机,即可以在数百台机器上,迅速下发文件。

► 脚本管理、远程批量执行

•脚本管理功能对平常运维工作中常用的脚本(Shell/Python/Per/Sqll)或者命令行进行统一管理,用于完成日常运维操作,目前系统已内置常见告警的预处理脚本,脚本管理功能有利于维护经验的沉淀;

•脚本管理工作流程:采用向导方式进行新增脚本、脚本配置、脚本测试、脚本执行下发;

•可对脚本进行手动执行或者自动定时执行;

•在平台上,通过点击的操作方式,在多台主机上远程执行相应的运维操作。

► 自动化补丁管理

•结合漏扫结果,匹配相应的补丁集合,一键进行补丁集分发;

•根据具体运维安排,运维人员一键远程执行补丁安装操作。

► 自动化部署

自动化部署功能通过部署模板、部署方案、部署日志、部署统计实现对日常应用部署工作的管理,可帮组运维人员实现可视化、自动化的应用程序部署:完成备份、更新应用程序包、清理缓存、启停应用服务进程 、部署校验、部署回退等操作。

部署模板:包含部署基本信息、软件包信息、服务器信息、下发资料路径、备份路径并定义了应用程序部署流程信息的模板。

部署方案:在部署模板的基础上新建的用于部署特定版本应用程序的方案。需输入应用程序包、SQL脚本信息,共用部署模板中的部署基本信息、软件包信息、服务器信息、下发资料路径、备份路径信息,可重新定义 应用程序部署流程信息。

► 自动化故障诊断

通过将故障诊断标准化、流程化、自动化、智能化,能够快速、全面的进行故障诊断、诊断信息收集、告警自动恢复,可减少故障处理时间30分钟以上,降低业务风险。

•将常用的诊断命令记录为诊断脚本。可直接对主机执行诊断脚本查看执行结果;

•由多个诊断脚本组合成一个诊断方案。可针对告警自动执行诊断方案,收集宝贵的动态诊断信息;

•将多个诊断方案组合成一个诊断预案。可实现全方位、标准化的应急操作预案,解决人工执行脚本遗漏、不规范等问题。

► 资产配置自动获取

系统可以实现对资产配置信息的自动获取,无需人工更新,有利于实时掌握资产最新动态。

•实现了主机的操作系统、IP地址、MAC地址、CPU核数、CPU型号、内存大小、存储空间等固定资产信息的自动获取;

•可自动判断主机上的应用软件类型:是否安装FTP、数据库、中间件等;

•结合主机的资源利用情况,可全面了解资产的配置以及利用情况。

► 配置文件变更管理

•可实现主机、数据库、中间件等配置信息抓取;

•可设立基线,实现配置文件与基线版本比对,快速发现变更情况。

► Agent端自更新

系统提供Agent 端自更新功能,大大降低在大规模运维的过程中,版本升级所需的维护工作量。

日志大数据技术相关

► 分布日志统一实时采集

•将大量分布在不同节点上的基础架构日志,中间件日志,应用日志,实时进行收集,统一存储;

•支持多种大数据存储方式;

•高度可扩展架构,可存储及索引大量日志。

► 日志关键字实时警告

通过故障日志,告警日志,从业务层面实时流式日志分析,系统可以对日志中出现的关键字实时生成告警,快速获知业务层面发生的故障,实现应用层面告警获知。

► 日志实时检索

通过大数据日志实时搜索技术,能为运维人员提供海量日志实时查询能力,运维人员可以快速获知分布在不同节点上与故障相关的系统运行日志,辅助运维人员从海量的日志中,快速定位故障发生层面及具体的节 点。

•强大的日志结构化,标准化功能,便于后期搜索及分析;

•预设多维度搜索,实时展示;

•基于时间轴的交互式主搜索界面;

•强大的辅助搜索功能及搜索语法。

► 日志数据挖掘分析

对日志数据进行深度发掘分析,了解业务运营情况,如:访问数,点击率,成功率,转化率等信息。并提供高效的实时统计/分析功能:

•实时分布式数据采集,运输管道;

•高效分布式的流式计算;

•根据业务匹配各种计算规则。

posted @ 2015-04-19 22:57  C/C++攻城狮  阅读(2586)  评论(0)    收藏  举报