80%的软件环境管理问题,根因都在这里
简介:80%的软件环境管理问题,根因都在这里,云效云原生应用管理平台AppStack正是基于OAM的应用交付平台,企业在云效AppStack,可以通过应用编排、占位符、变量等声明式定义,实现一套编排多环境差异化部署,同时基于版本和基线实现环境一键拉起、一键回滚。
专栏策划|雅纯
志愿编辑|jimmy、吕瑞星
软件交付的终态是提供稳定可预期的系统,要做到这一点,我们需要确保:一、软件制品的一致性;二、运行环境的一致性。
第3讲我们分享了如何保证软件制品的一致性,这一讲我们来谈谈如何保证环境的一致性。
运行环境一致性的目标是环境可预期、稳定、低成本。其中低成本比较关键,因为环境资源的成本一般比较高。
我们可以将运行环境分为3部分:制品、执行引擎和编排规则。
- 应用的一致性,比如一致的容器镜像;
- 容器运行所需的上下文的一致性,比如一致的数据配置等;
- 编排规则的一致性,需要保证编排执行相同的规则,比如相同容器部署规则、相同节点分布规则、相同备份规则等。
保证这3点,部署完成之后才会形成一致的可运行环境。但是现实当中,环境还是会有很多其它的问题,比如:
- 配置文件中有好多监控之类的配置,对于使用者来说,不知道配置的具体作用,需要修改时不知如何设置。
- 测试的时候依赖的环境经常发生问题,耗费大量等待和排查时间。比如说依赖的API经常出问题,排查修复可能需要等待依赖方很久,导致测试工作无法继续进行。
- 新环境的搭建很耗时。搭建一个新的环境是很痛苦的事情,比如国际化团队,经常要搭建新的站点,而每搭一个新的环境就要耗费一整天的时间是很痛苦的。
- 应用在本地无法运行。比如因为缺某个资源导致应用无法正常运行。
- 配置环境需要小心翼翼,可能出现配置遗漏。每次配环境的时候需要很小心,特别是当环境配置由多人配合时,会出现配置冲突,导致程序无法运行,需要全链路排查解决。
这里我们简单列了五个常见的问题,它们的根源都是环境缺乏清晰的定义:不清楚环境的具体内容、对环境搭建过程的认知模糊。
环境的清晰定义,包括环境包含什么制品、这些制品如何部署等。那么环境管理的终态是什么呢?
环境管理的3个阶段
环境管理的第一个阶段是说明文档,这点相信很多人都经历过。当我们在做一个项目或产品时,会写整个产品的部署说明书、说明文档、升级文档等各种文档。但文档很难保证实用,也不一定是最新的、准确的。每次我们去现场交付时,都会遇到一些文档里没有描述的问题。这时候还得打电话确认,是否有遗漏什么。用文档或说明书去管理环境,存在很大的弊端,所以我们想到了用命令的方式去管理。
阶段二:命令
第二阶段,我们通过命令的方式,写了各种shell、Python脚本,把相关命令组合在一起。之前我们在做一个产品的私有化交付的时候,一开始的做法就是用脚本去管理环境,因为开启一个新环境实在太痛苦了,需要花很多时间改参数、找包、配IP等,效率太低。所以我们写了脚本来管理,用脚本代替了文档。
但是用脚本管理环境也存在很多问题。我们要应对各种各样的环境,同一个任务在不同的场景里,命令组合可能是不一样的,所以脚本会越来越多,维护脚本的成本也越来越高。
阶段三:声明
为了解决命令脚本的维护和稳定性问题,我们进入了第三个阶段,声明式——通过配置的方式表达环境,把环境定义出来。声明式的描述提供了环境的确定性表达。
以k8s为例,我们以一个例子来看,如何做环境声明
我们知道K8S的最小单元是pod,里面有容器,还有各种网络存储等,通过pod声明去描述。声明被apply后,具体的事情在controller里面处理。
通过sidecar分离关注点
我们以两个角色为例,一是业务的开发者,关注的是应用的容器,所以发布的时候,他的关注点都在应用容器这一块。二是企业的SRE,他的关注点往往在sidecar的各种服务治理容器上,比如logagent的日志级别和采样率是否合理等。
通过sidecar,业务开发者和SRE的关注点就分离了。这样分离还有一个好处,就是中间件下沉,都以sidecar的方式管理。一旦遇到相应的中间件需要升级,业务代码不需要做任何的改变和发布,只需要做sidecar的发布就好了。
我们前面提到,一致的环境需要有3个组成部分:相同的制品、相同的运行上下文以及相同的编排规则。相同的运行上下文,本质就是里面的配置要一致。最早我们是用文档告诉我们怎么把环境管理起来,之后用脚本,最后用环境声明。
然而,用声明式的方式定义环境也并不完美。举个具体的例子,在应用运行的时候需要有一些相应的配置,中间件、基础资源、CPU、存储等都需要配置,这样会面临一个很大的问题——环境相关的配置太多了。
环境相关的配置太多,该怎么管理好呢?
通过IaC来定义环境
从配置的角度,我们有应用配置、运维配置、基础设施运维配置,甚至软件生产过程的配置。我们把应用代码和IaC代码,放在两个库里面(也有放到一个库里面的,各有利弊,在此我们不展开也不评价)。
比如上图中,在IaCRepo里我们放了动态配置(即运行时的配置)、BaaS配置(基础设施,如数据库、中间件存储、消息队列等)、监控配置(如监控粒度、采样频率)、发布配置等。所有的配置都声明在代码库里面,基于该声明编排的所有环境就都是一致的了。
任何事情都是有利有弊,用IaC的方式管理环境又会带来什么新的挑战呢?
其次是知识的成本。IaC将一个环境所有的配置都以文本的界面给到了开发者,但是很多配置项是需要专业背景的,比如运维相关的策略、比如监控的配置方式等等,价值IaC本身的学习成本,往往让很多开发者望而生畏。
为了解决这个问题,阿里联合微软一起发布了OAM模型,以应用为统一维度,将IaC包含的各类资源和角色进行了分类和聚合。
其次,OAM将IaC的使用者分离为:应用开发者、应用运维、基础设施运维三大角色,彼此的关注点进行了分离。
OAM抽象和简化了IaC的定义和维护方式,降低开发者的学习和使用成本。
总结一下,我们认为,环境管理的终态是软件定义的不可变环境,而当下,它的最佳实践我们认为是基于OAM模型的、以应用为核心的IaC声明。
云效云原生应用管理平台AppStack正是基于OAM的应用交付平台,企业在云效AppStack,可以通过应用编排、占位符、变量等声明式定义,实现一套编排多环境差异化部署,同时基于版本和基线实现环境一键拉起、一键回滚。
本文为阿里云原创内容,未经允许不得转载。










浙公网安备 33010602011771号