摘要:
需求: 当团队DevOps人数比较多或者外部团队申请EKS集群已经成为日常工作一部分,决定将这个过程通过Terrorform自动化进行创建,可追溯和减少手动操作的黑洞。 目标:1.提高自动化覆盖率。2.提高团队规范化创建流程 实现方式:Terrorform 代码整理中.... 阅读全文
posted @ 2025-11-23 14:52
meijinmeng
阅读(3)
评论(0)
推荐(0)
摘要:
需求: 当团队DevOps人数比较多或者外部团队申请IAM权限已经成为日常工作一部分,决定将这个过程通过Terrorform自动化进行创建,可追溯和减少手动操作的黑洞。 目标:1.提高自动化覆盖率。2.提高团队规范化创建流程 实现方式:Terrorform 代码整理中.... 阅读全文
posted @ 2025-11-23 14:50
meijinmeng
阅读(4)
评论(0)
推荐(0)
摘要:
1.需求: 当团队DevOps人数比较多或者外部团队申请EC2实例已经成为日常工作一部分,决定将这个过程通过Terrorform自动化进行创建,可追溯和减少手动操作的黑洞。 2.目标: 1.提高自动化覆盖率 2.提高团队规范化创建流程 3.实现方式:Terrorform 4.目录结构如下 5.实现代 阅读全文
posted @ 2025-11-23 14:49
meijinmeng
阅读(3)
评论(0)
推荐(0)
摘要:
待整理中 阅读全文
posted @ 2025-11-23 14:44
meijinmeng
阅读(3)
评论(0)
推荐(0)
摘要:
1.需求:因为历史原因和软件程序原因,有上百台服务和所在服务未运行在容器中,需要在程序奔溃自动拉起(以Java Python C++为主)。 2.目的:能够非人为干预快速自动恢复,要求检测频率在10s一次 3.实现方式 3.1 根据不同语言自己开发脚本实现自动拉起和通知(不够标准化-弃用) 1 #! 阅读全文
posted @ 2025-11-23 14:35
meijinmeng
阅读(33)
评论(2)
推荐(0)
摘要:
1.需求:1.当成千上百台EC2实例异常需要花费大量时间去重启 2.EC2自我恢复时间较长,需要认为干预 3.发生重启和重启成功后告警提示,给故障预留充分证据。 2.目标:1.提升EC2自我恢复能力。2.降低人工运维效率 3.重启前提条件: log " - Prometheus 故障检测 + 60秒 阅读全文
posted @ 2025-11-23 14:15
meijinmeng
阅读(6)
评论(0)
推荐(0)
浙公网安备 33010602011771号