摘要: 需求: 当团队DevOps人数比较多或者外部团队申请EKS集群已经成为日常工作一部分,决定将这个过程通过Terrorform自动化进行创建,可追溯和减少手动操作的黑洞。 目标:1.提高自动化覆盖率。2.提高团队规范化创建流程 实现方式:Terrorform 代码整理中.... 阅读全文
posted @ 2025-11-23 14:52 meijinmeng 阅读(3) 评论(0) 推荐(0)
摘要: 需求: 当团队DevOps人数比较多或者外部团队申请IAM权限已经成为日常工作一部分,决定将这个过程通过Terrorform自动化进行创建,可追溯和减少手动操作的黑洞。 目标:1.提高自动化覆盖率。2.提高团队规范化创建流程 实现方式:Terrorform 代码整理中.... 阅读全文
posted @ 2025-11-23 14:50 meijinmeng 阅读(4) 评论(0) 推荐(0)
摘要: 1.需求: 当团队DevOps人数比较多或者外部团队申请EC2实例已经成为日常工作一部分,决定将这个过程通过Terrorform自动化进行创建,可追溯和减少手动操作的黑洞。 2.目标: 1.提高自动化覆盖率 2.提高团队规范化创建流程 3.实现方式:Terrorform 4.目录结构如下 5.实现代 阅读全文
posted @ 2025-11-23 14:49 meijinmeng 阅读(3) 评论(0) 推荐(0)
摘要: 待整理中 阅读全文
posted @ 2025-11-23 14:44 meijinmeng 阅读(3) 评论(0) 推荐(0)
摘要: 1.需求:因为历史原因和软件程序原因,有上百台服务和所在服务未运行在容器中,需要在程序奔溃自动拉起(以Java Python C++为主)。 2.目的:能够非人为干预快速自动恢复,要求检测频率在10s一次 3.实现方式 3.1 根据不同语言自己开发脚本实现自动拉起和通知(不够标准化-弃用) 1 #! 阅读全文
posted @ 2025-11-23 14:35 meijinmeng 阅读(33) 评论(2) 推荐(0)
摘要: 1.需求:1.当成千上百台EC2实例异常需要花费大量时间去重启 2.EC2自我恢复时间较长,需要认为干预 3.发生重启和重启成功后告警提示,给故障预留充分证据。 2.目标:1.提升EC2自我恢复能力。2.降低人工运维效率 3.重启前提条件: log " - Prometheus 故障检测 + 60秒 阅读全文
posted @ 2025-11-23 14:15 meijinmeng 阅读(6) 评论(0) 推荐(0)