摘要:
1.需求 当团队DevOps人数比较多或者外部团队申请EKS集群已经成为日常工作一部分,决定将这个过程通过Terrorform自动化进行创建,可追溯和减少手动操作的黑洞。 2.目标 提高自动化覆盖率。 提升团队协作和规范化创建流程 3.实现方式 Terrorform ├── live │ ├── _ 阅读全文
posted @ 2025-11-23 14:52
meijinmeng
阅读(6)
评论(0)
推荐(0)
摘要:
1.需求评估 当团队DevOps人数比较多或者外部团队申请IAM权限已经成为日常工作一部分,决定将这个过程通过Terrorform自动化进行创建,可追溯和减少手动操作的黑洞。 2.目标:1.提高自动化覆盖率。2.提高团队规范化创建流程 3.实现方式: Terrorform 4.代码实现 阅读全文
posted @ 2025-11-23 14:50
meijinmeng
阅读(10)
评论(0)
推荐(0)
摘要:
1.需求: 当团队DevOps人数比较多或者外部团队申请EC2实例已经成为日常工作一部分,决定将这个过程通过Terrorform自动化进行创建,可追溯和减少手动操作的黑洞。 2.目标: 1.提高自动化覆盖率 2.提高团队规范化创建流程 3.实现方式:Terrorform 4.目录结构如下 5.实现代 阅读全文
posted @ 2025-11-23 14:49
meijinmeng
阅读(10)
评论(0)
推荐(0)
摘要:
一.背景说明 1.提升Devops 基础设施iac自动化 2.提高团队协同能力 二.结构说明 Terroform ├── live │ ├── _common.hcl │ ├── ltp │ │ ├── infra │ │ │ ├── dept.hcl │ │ │ ├── dev │ │ │ │ ├ 阅读全文
posted @ 2025-11-23 14:44
meijinmeng
阅读(4)
评论(0)
推荐(0)
摘要:
1.需求分析: 几百台服务器EC2部署: 配置健康检测程序10/s 检测一次进程存活,防止服务down后无法自动启动恢复(以Java Python C++为主)。 实现逻辑:如服务进程不存在,则会调用/data/scripts下的启动脚本进行启动,如进程存在则状态ok. ⚠️:如无法做自启动都在备注 阅读全文
posted @ 2025-11-23 14:35
meijinmeng
阅读(34)
评论(2)
推荐(0)
摘要:
1.需求:1.当成千上百台EC2实例异常需要花费大量时间去重启 2.EC2自我恢复时间较长,需要认为干预 3.发生重启和重启成功后告警提示,给故障预留充分证据。 2.目标:1.提升EC2自我恢复能力。2.降低人工运维效率 3.重启前提条件: log " - Prometheus 故障检测 + 60秒 阅读全文
posted @ 2025-11-23 14:15
meijinmeng
阅读(7)
评论(0)
推荐(0)
浙公网安备 33010602011771号