摘要: 需求: 当团队DevOps人数比较多或者外部团队申请EKS集群已经成为日常工作一部分,决定将这个过程通过Terrorform自动化进行创建,可追溯和减少手动操作的黑洞。 目标:1.提高自动化覆盖率。2.提高团队规范化创建流程 实现方式:Terrorform 代码整理中.... 阅读全文
posted @ 2025-11-23 14:52 meijinmeng 阅读(3) 评论(0) 推荐(0)
摘要: 需求: 当团队DevOps人数比较多或者外部团队申请IAM权限已经成为日常工作一部分,决定将这个过程通过Terrorform自动化进行创建,可追溯和减少手动操作的黑洞。 目标:1.提高自动化覆盖率。2.提高团队规范化创建流程 实现方式:Terrorform 代码整理中.... 阅读全文
posted @ 2025-11-23 14:50 meijinmeng 阅读(4) 评论(0) 推荐(0)
摘要: 1.需求: 当团队DevOps人数比较多或者外部团队申请EC2实例已经成为日常工作一部分,决定将这个过程通过Terrorform自动化进行创建,可追溯和减少手动操作的黑洞。 2.目标: 1.提高自动化覆盖率 2.提高团队规范化创建流程 3.实现方式:Terrorform 4.目录结构如下 5.实现代 阅读全文
posted @ 2025-11-23 14:49 meijinmeng 阅读(3) 评论(0) 推荐(0)
摘要: 待整理中 阅读全文
posted @ 2025-11-23 14:44 meijinmeng 阅读(3) 评论(0) 推荐(0)
摘要: 1.需求:因为历史原因和软件程序原因,有上百台服务和所在服务未运行在容器中,需要在程序奔溃自动拉起(以Java Python C++为主)。 2.目的:能够非人为干预快速自动恢复,要求检测频率在10s一次 3.实现方式 3.1 根据不同语言自己开发脚本实现自动拉起和通知(不够标准化-弃用) 1 #! 阅读全文
posted @ 2025-11-23 14:35 meijinmeng 阅读(33) 评论(2) 推荐(0)
摘要: 1.需求:1.当成千上百台EC2实例异常需要花费大量时间去重启 2.EC2自我恢复时间较长,需要认为干预 3.发生重启和重启成功后告警提示,给故障预留充分证据。 2.目标:1.提升EC2自我恢复能力。2.降低人工运维效率 3.重启前提条件: log " - Prometheus 故障检测 + 60秒 阅读全文
posted @ 2025-11-23 14:15 meijinmeng 阅读(6) 评论(0) 推荐(0)
摘要: 需求:基于Github Action 配置Java Python Go. Rust Nodejs C++ 实现自动发布功能。 目标:基于Github+Argocd实现不基于Jenkins的快速敏捷发布体系,覆盖服务为:容器+非容器服务。 实现思路:容器基于github action cicd后把最新 阅读全文
posted @ 2025-11-11 00:00 meijinmeng 阅读(9) 评论(0) 推荐(0)
摘要: 需求1:多个Prometheus数据集群指标相互割裂,无法聚合在一个看板使用。 需求2: 多个Prometheus告警规则分散,需要集中管理。 部署kube-prometheus-stack nameOverride: "" namespaceOverride: "" kubeTargetVersi 阅读全文
posted @ 2025-11-10 11:36 meijinmeng 阅读(23) 评论(0) 推荐(0)
摘要: Kubernetes节点报错如下: java.lang.OutOfMemoryError: unable to create native thread: possibly out of memory or process/resource limits reached Failed to star 阅读全文
posted @ 2024-03-01 17:44 meijinmeng 阅读(5) 评论(0) 推荐(0)
摘要: 一.背景 1.公司有LDAP做统计认证的需求,方式各个中间件重复来创建账号。 2.方便离职后统一管理账号 3.网上没有比较全的集成LDAP的文档 二.LDAP安装部署 1.安装LDAP 方法1: 1.安装 openldap server端 docker run -p 389:389 -p 636:6 阅读全文
posted @ 2024-01-27 14:31 meijinmeng 阅读(16) 评论(0) 推荐(0)
摘要: 1.背景:需要对aws rds慢日志文件归档到es,让开发能够随时查看。 2.需求:并且每天把最新的慢日志,过滤最慢的5条sql 发送给各个产品线的开发负责人。 3.准备: aws ak/sk ,如果rds 在不同区域需要认证不同的ak/sk。 已经安装好的es这里不做详细展开。 安装好filebe 阅读全文
posted @ 2023-12-18 10:57 meijinmeng 阅读(6) 评论(0) 推荐(0)
摘要: 1.背景:随着线上容器越来越多,需要一个可视化的方式展示各个容器之间的拓扑图。 2.需求:轻量级,部署方便。 3.部署 helm repo add groundcover https://helm.groundcover.com/ helm repo update helm install care 阅读全文
posted @ 2023-12-18 10:30 meijinmeng 阅读(2) 评论(0) 推荐(0)
摘要: 1.需求:对电脑,办公设备,耗材等做资产盘点和整理,并对库存预警。 2.选型:snipeit 3.部署 #!/bin/bash docker run -d -p 80:80 --name="snipeit" --env-file=snipeit.env --mount source=snipe-vo 阅读全文
posted @ 2023-12-14 15:35 meijinmeng 阅读(4) 评论(0) 推荐(0)
摘要: 1.背景:某个pod容器一直占用cpu比较高,需要找出哪些线程使用的。 2.使用工具:arthas 3.过程 curl -O https://arthas.aliyun.com/arthas-boot.jar java -jar arthas-boot.jar 选1 thread -n 10 #cp 阅读全文
posted @ 2023-12-07 10:48 meijinmeng 阅读(3) 评论(0) 推荐(0)
摘要: 这里写自定义目录标题 0.项目背景1.rclone 方式2.rsync方式3.注意 0.项目背景 公司迁移要求:从阿里云oss到亚马逊s3,数据量大概500G-2T左右。 开启阿里云oss 加速模式,这样能够跨机房和区域加速。 主要采用以下两种方式同步数据,根据每个公司情况自行选择即可。 1.rcl 阅读全文
posted @ 2023-11-06 18:12 meijinmeng 阅读(30) 评论(0) 推荐(0)