摘要:操作环境 rbac 划分(HA高可用双master部署实例) 本文穿插了ha 高可用部署的实例,当前章节设计的是ha部署双master 部署 | 内网ip | 角色 | 安装软件 | | | | | | 192.168.0.10 | master01 | etcd,kube-apiserver,ku 阅读全文
posted @ 2020-07-12 16:40 PassZhang 阅读(342) 评论(0) 推荐(2) 编辑
摘要:八个开源的 Spring Boot 前后端分离项目 最近前后端分离已经在慢慢走进各公司的技术栈,不少公司都已经切换到这个技术栈上面了。即使贵司目前没有切换到这个技术栈上面,我们也非常建议大家学习一下前后端分离开发,以免在公司干了两三年,SSH 框架用的滚瓜烂熟,出来却发现自己依然没有任何优势! 其实 阅读全文
posted @ 2020-05-18 19:20 PassZhang 阅读(389) 评论(0) 推荐(0) 编辑
摘要:高级容器平台架构师 学历要求: 本科及以上 招聘人数: 1 职位类型: 运维研发工程师 岗位职责: 1.负责Docker、Kubernetes容器集群的安装、监控、故障处理、性能调优和整体方案落地; 2.负责协助业务系统容器化改造,包括镜像制作、helm chart制作、CICD流水线创建等; 3. 阅读全文
posted @ 2020-05-03 05:40 PassZhang 阅读(125) 评论(0) 推荐(0) 编辑
摘要:一个小公司老板的日常管理,可以借鉴下 目录 1.小公司如何留住骨干 2.关于授权 3.有的钱不能省 4.关于招聘 5.老板尽量唱红脸 6.公司里的亲戚 7.当老板和开车 8.按时发工资 9.学会说“不” 10.不要在公司内部奢望交朋友 11.避免当场做决定 12.政策的制定 13.矬子里拔将军 14 阅读全文
posted @ 2019-10-12 22:19 PassZhang 阅读(2459) 评论(17) 推荐(42) 编辑
摘要:0x00 背景 周一早上刚到办公室,就听到同事说有一台服务器登陆不上了,我也没放在心上,继续边吃早点,边看币价是不是又跌了。不一会运维的同事也到了,气喘吁吁的说:我们有台服务器被阿里云冻结了,理由:对外恶意发包。我放下酸菜馅的包子,ssh连了一下,被拒绝了,问了下默认的22端口被封了。让运维的同事把 阅读全文
posted @ 2018-06-11 15:56 PassZhang 阅读(4145) 评论(9) 推荐(11) 编辑
摘要:问题一: 绝对路径用什么符号表示?当前目录、上层目录用什么表示?主目录用什么表示? 切换目录用什么命令? 答案:绝对路径: 如/etc/init.d当前目录和上层目录: ./ ../主目录: ~/切换目录: cd问题二: 怎么查看当前进程?怎么执行退出?怎么查看当前路径?答案:查看当前进程: ps执 阅读全文
posted @ 2018-03-12 23:21 PassZhang 阅读(91978) 评论(2) 推荐(16) 编辑
摘要:效果对比 官方默认日志格式 # 官方默认日志格式 log_format main '$server_name $remote_addr - $remote_user [$time_local] "$request" $status $body_bytes_sent "$http_referer" " 阅读全文
posted @ 2020-07-31 16:12 PassZhang 阅读(55) 评论(0) 推荐(0) 编辑
摘要:唇亡齿寒,运维与安全 故障管理模块告一段落了,今天我们来分享运维安全的内容。在日常工作中,我们运维团队和安全团队的配合确实是非常紧密的,有非常多的交集,我觉得可以做个整体的分享,算是抛砖引玉,以激发更多的讨论和思考。 运维和安全的关系 运维和安全,双方有一个共同的特点,就是时常要面对非常棘手,甚至是 阅读全文
posted @ 2020-07-31 16:06 PassZhang 阅读(6) 评论(0) 推荐(0) 编辑
摘要:为了统计和其它用途,经常有人需要自定义Nginx日志,把http请求中的某个字段记录到日志中,刚好在看lua+nginx的文章,第一想到的是用lua赋值来做,但是想想有点小恶心,于是Google了一番,发现Nginx自己就能够记录收到的HTTP请求的头部数据,测试如下方法可用。 测试环境Nginx 阅读全文
posted @ 2020-07-31 16:04 PassZhang 阅读(8) 评论(0) 推荐(0) 编辑
摘要:问题描述 我的deployment有单个pod,我的自定义docker镜像如下: containers: - name: mycontainer image: myimage:latest 在开发过程中,我想推送新的最新版本并更新Deployment。无法明确定义tag/version并为每个构建增 阅读全文
posted @ 2020-07-31 12:31 PassZhang 阅读(24) 评论(0) 推荐(0) 编辑
摘要:故障管理:故障定级和定责 故障管理的第一步是对故障的理解,只有正确地面对故障,我们才能够找到更合理的处理方式。今天就来和你分享关于故障定级和定责方面的经验。 故障的定级标准 上期文章中介绍到,如果我们的注意力仅仅盯着故障本身,就非常容易揪着责任人不放,进而形成一些负面效应,所以我们要将更多的注意力放 阅读全文
posted @ 2020-07-31 12:30 PassZhang 阅读(12) 评论(0) 推荐(0) 编辑
摘要:以下我们描述如何使用 Elastic 技术栈来为 Kubernetes 构建监控环境。可观测性的目标是为生产环境提供运维工具来检测服务不可用的情况(比如服务宕机、错误或者响应变慢等),并且保留一些可以排查的信息,以帮助我们定位问题。总的来说主要包括3个方面: 监控指标提供系统各个组件的时间序列数据, 阅读全文
posted @ 2020-07-30 14:34 PassZhang 阅读(14) 评论(0) 推荐(0) 编辑
摘要:故障管理:鼓励做事,而不是处罚错误 故障发生后,我们一定要严肃对待,要对关键责任人或责任方定责,但是定责的目的不是处罚,因为故障复盘一旦以处罚为导向,就会导致非常严重的负面效应。 我们应该如何对待定责和处罚呢?今天就来分享一下我的理解,以及我个人的一些处理方式。 关于定责和处罚 定责的过程,是找出根 阅读全文
posted @ 2020-07-30 14:32 PassZhang 阅读(7) 评论(0) 推荐(0) 编辑
摘要:故障管理:谈谈我对故障的理解 对于任何一个技术团队来说,最令人痛苦、最不愿面对的事情是什么?我想答案只有一个,那就是:故障。 无论是故障发生时的极度焦虑无助,还是故障处理过程中的煎熬痛苦,以及故障复盘之后的失落消沉,都是我们不愿提及的痛苦感受。在海外,故障复盘的英文单词是Postmortem,它有另 阅读全文
posted @ 2020-07-24 22:11 PassZhang 阅读(16) 评论(0) 推荐(0) 编辑
摘要:稳定性实践:开关和预案 在稳定性保障中,限流降级的技术方案,是针对服务接口层面的,也就是服务限流和服务降级。这里还有另外一个维度,就是业务维度,所以今天我们就从业务降级的维度来分享,也就是开关和预案。 如何理解开关和预案 开关,这个概念更多是业务和功能层面的,主要是针对单个功能的启用和停止进行控制, 阅读全文
posted @ 2020-07-24 22:02 PassZhang 阅读(11) 评论(0) 推荐(0) 编辑
摘要:稳定性实践:全链路跟踪系统,技术运营能力的体现 今天我们来分享全链路跟踪系统建设方面的内容。我们知道,随着微服务和分布式架构的引入,各类应用和基础组件形成了网状的分布式调用关系,这种复杂的调用关系就大大增加了问题定位、瓶颈分析、容量评估以及限流降级等稳定性保障工作的难度,如我们常见的调用网状关系。 阅读全文
posted @ 2020-07-24 15:55 PassZhang 阅读(20) 评论(0) 推荐(0) 编辑
摘要:稳定性实践:容量规划之压测系统建设 容量规划离不开对业务场景的分析,分析出场景后,就要对这些场景进行模拟,也就是容量的压力测试,用来真实地验证系统容量和性能是否可以满足极端业务场景下的要求。同时,在这个过程中还要对容量不断进行扩缩容调整,以及系统的性能优化。 今天,我们就来看压力测试的技术实现方式: 阅读全文
posted @ 2020-07-24 15:51 PassZhang 阅读(13) 评论(0) 推荐(0) 编辑
摘要:稳定性实践:限流降级 本周我们继续来讨论稳定性实践的内容。在现实情况下,当面对极端的业务场景时,瞬时的业务流量会带来大大超出系统真实容量的压力。 为了应对,前面我们介绍了容量规划方面的实践经验。不过,我们不会无限度地通过扩容资源来提升容量,因为无论从技术角度,还是从成本投入角度,这样做都是不划算的, 阅读全文
posted @ 2020-07-24 15:49 PassZhang 阅读(22) 评论(0) 推荐(0) 编辑
摘要:稳定性实践:容量规划之业务场景分析 上期文章我们从整体上介绍了极端业务场景下,如何做好稳定性保障工作。今天,我们结合电商大促这个场景,来看一下容量规划这项工作。 稳定性保障的一个难点是我们要面对一个非常复杂的因素,那就是业务模型,或者叫用户访问模型。因为它的不确定性,会衍生出很多不同的业务场景,而不 阅读全文
posted @ 2020-07-24 13:37 PassZhang 阅读(7) 评论(0) 推荐(0) 编辑
摘要:极端业务场景下,我们应该如何做好稳定性保障? 从今天开始,和你分享我对微服务和分布式架构下的稳定性保障的理解。 稳定性保障需要一定的架构设计能力,又是微服务架构比较核心的部分。在陈皓老师的“左耳听风”专栏,以及杨波老师的“微服务架构核心20讲”专栏都有非常详细的介绍。所以在我的专栏里,我会结合特定的 阅读全文
posted @ 2020-07-24 13:32 PassZhang 阅读(15) 评论(0) 推荐(0) 编辑
摘要:量体裁衣方得最优解:聊聊页面静态化架构和二级CDN建设 上期文章中我们介绍了CDN和云存储的实践,以及云生态的崛起之路,今天,我们继续聊一聊CDN。 我们通常意义上讲的CDN,更多的是针对静态资源类的内容分发网络,最典型的就是电商的各类图片,还有JS和CSS这样的样式文件。通过CDN能够让用户就近访 阅读全文
posted @ 2020-07-24 12:51 PassZhang 阅读(11) 评论(0) 推荐(0) 编辑
摘要:云计算时代,我们所说的弹性伸缩,弹的到底是什么? 现在,我们经常听到的一些高大上的词汇,比如弹性伸缩、水平扩展和自动化扩缩容等等,你能否说一说,这些技术手段的主体是谁,也就是谁的水平扩展?弹性伸缩的是什么?同时,这些名词之间又有什么关系呢? 下面我们就从弹性伸缩入手一起来分析讨论。 弹性伸缩的主体是 阅读全文
posted @ 2020-07-24 12:50 PassZhang 阅读(38) 评论(0) 推荐(0) 编辑
摘要:Spring Cloud:面向应用层的云架构解决方案 上期文章我们介绍了混合云,以及在实际操作中我们常见的几种混合云模式。今天我们来聊一聊Spring Cloud如何解决应用层的云架构问题。 对于Spring Cloud,你大概不会陌生,它跟Spring生态中的另一个开源项目Spring Boot, 阅读全文
posted @ 2020-07-24 12:49 PassZhang 阅读(21) 评论(0) 推荐(0) 编辑
摘要:以绝对优势立足:从CDN和云存储来聊聊云生态的崛起 前面几期文章我们介绍了混合云模式,以及面向应用层的云架构解决方案的Spring Cloud。接下来,我们就以蘑菇街的两个具体案例,来分享一下基于混合云模式的具体实践。 今天,我们先一起看一下我们最为熟悉的CDN和云存储建设。 CDN和云存储 我们之 阅读全文
posted @ 2020-07-24 12:47 PassZhang 阅读(10) 评论(0) 推荐(0) 编辑
摘要:为什么蘑菇街会选择上云?是被动选择还是主动出击? 2018年1月22日凌晨,我们美丽联合集团旗下的蘑菇街和美丽说的业务,整体搬迁到腾讯云,完成了从托管IDC模式,到腾讯云上混合云模式的转变。 云计算发展到今天,无论是在技术、服务层面,还是在商业层面都已经相对比较成熟。当前绝大多数初创公司在基础设施上 阅读全文
posted @ 2020-07-24 12:46 PassZhang 阅读(11) 评论(0) 推荐(0) 编辑
摘要:为什么混合云是未来云计算的主流形态? 上期文章我介绍了我们蘑菇街之所以选择上云,是基于怎样的全面考量。今天我们来聊一聊,对于蘑菇街这样有着一定规模体量的产品,我们在不同时期和不同阶段,对云的使用方式是怎样的。 关于混合云 对于“混合云”这三个字,你应该不会陌生。但是,“混合云”又是比较宽泛一个概念, 阅读全文
posted @ 2020-07-24 12:43 PassZhang 阅读(11) 评论(0) 推荐(0) 编辑
摘要:持续交付中流水线构建完成后就大功告成了吗?别忘了质量保障 上期文章我结合自己的实践经验,介绍了持续交付中流水线模式的软件构建,以及在构建过程中的3个关键问题。我们可以看出,流水线的软件构建过程相对精简、独立,只做编译和打包两个动作。 但需要明确的是,在持续交付过程中,我们还要做很多与质量保障相关的工 阅读全文
posted @ 2020-07-24 12:42 PassZhang 阅读(12) 评论(0) 推荐(0) 编辑
摘要:做持续交付概念重要还是场景重要?看“笨办法”如何找到最佳方案? 上期文章中我们讲到,在经过严格的依赖规则校验和安全审计之后,构建出的软件包才可以部署发布。 在开发环境、项目环境、集成测试环境以及预发环境下,我们还要进行各类的功能和非功能性测试,最后才能发布到正式的生产环境之上。 通常状况下,做一次软 阅读全文
posted @ 2020-07-24 12:37 PassZhang 阅读(12) 评论(0) 推荐(0) 编辑
摘要:人多力量大vs.两个披萨原则,聊聊持续交付中的流水线模式 在前面5期文章中,我们分别详细介绍了持续交付体系基础层面的建设,主要是多环境和配置管理,这些是持续交付自动化体系的基础,是跟我们实际的业务场景和特点强相关的,所以希望你一定要重视基础的建设。 本期文章是我们持续交付系列的第6篇文章,从本期开始 阅读全文
posted @ 2020-07-23 21:54 PassZhang 阅读(10) 评论(0) 推荐(0) 编辑
摘要:持续交付流水线软件构建难吗?有哪些关键问题? 上期文章我们介绍了需求分解与应用对应的管理方式,以及提交环节的开发协作模式,今天我们详细介绍一下提交阶段的构建环节,也就是我们经常提到的代码的编译打包。 构建环节 由于静态语言从过程上要比动态语言复杂一些,代码提交后,对于Java和C++这样的静态语言, 阅读全文
posted @ 2020-07-23 21:47 PassZhang 阅读(10) 评论(0) 推荐(0) 编辑
摘要:开发和测试争抢环境?是时候进行多环境建设了 在上一期文章里,我们介绍了多环境下的应用配置管理问题,从这期开始,我们会分两期文章详细聊聊多环境建设的问题:就是我们到底需要哪些环境?这些环境都有什么作用?环境建设的思路和方式是怎样的? 今天我就结合自己的经验和理解与你聊一聊持续交付中的线下多环境建设。 阅读全文
posted @ 2020-07-23 21:41 PassZhang 阅读(14) 评论(0) 推荐(0) 编辑
摘要:线上环境建设,要扛得住真刀真枪的考验 前面几期我们分享了一些线下环境建设方面的内容,我们可以感受到,整个线下环境的建设是比较复杂的,那经过线下环境的验证,是不是就可以直接发布到线上生产环境了呢?答案同样是否定的,由线下正式交付到线上之前,我们仍然会做很多的验证和稳定性保障工作。 今天我们就一起来看一 阅读全文
posted @ 2020-07-23 21:39 PassZhang 阅读(9) 评论(0) 推荐(0) 编辑
摘要:持续交付的第一关键点:配置管理 今天我们来看持续交付的第一个关键点:配置管理。按照持续交付的理念,这里所说的配置管理范围会更广,主要有以下几个部分。 版本控制 依赖配置 软件配置 环境配置 讲持续交付,一上来就先讲配置管理,主要还是想强调:配置管理是基础,是关键。我们后面将要讲的每一个持续交付环节, 阅读全文
posted @ 2020-07-23 21:38 PassZhang 阅读(16) 评论(0) 推荐(0) 编辑
摘要:如何做好持续交付中的多环境配置管理? 上一篇内容中,我们讲到软件配置中的代码配置和应用配置,这两种配置之间最大的区别就是看跟环境是否相关。由此,就引出了持续交付过程中最为复杂的环境配置管理这个问题,准确地说,应该是不同环境下的应用配置管理。 今天我就结合自己的经验和你聊一聊环境管理的解决方案。 多环 阅读全文
posted @ 2020-07-23 21:36 PassZhang 阅读(15) 评论(0) 推荐(0) 编辑
摘要:冷静下来想想,员工离职这事真能“防得住”吗? 本周主要和你分享几个关于个人成长的话题。前面我们讨论了在新时期运维如何做好转型,运维是不是要懂产品和运营这两个内容,都是为了我们能够成长为技术骨干,最大限度地发挥出自己岗位的价值。 今天我们就往后聊一聊,当你从技术岗位转换到管理岗后,应该如何适应新的角色 阅读全文
posted @ 2020-07-23 21:35 PassZhang 阅读(7) 评论(0) 推荐(0) 编辑
摘要:持续交付知易行难,想做成这事你要理解这几个关键点 前面几篇文章,我们介绍了非常基础的运维建设环节。如果我们想要这些运维基础建设发挥出更大的作用和价值,就需要针对运维场景进行场景化设计和自动化,让效率和稳定性真正提升上来。也就是说,把基础的事情做好之后,我们就要进入效率提升的运维场景自动化阶段了。 在 阅读全文
posted @ 2020-07-23 21:34 PassZhang 阅读(9) 评论(0) 推荐(0) 编辑
摘要:运维需要懂产品和运营吗? 在《云计算和AI时代,运维应该如何做好转型》这一期内容中,我提到两个转型建议:一个是技术产品,另一个就是技术运营。今天我就更加聚焦地来分享这个观点。 我们运维接触更多的是软件生命周期中的运行维护阶段,我之前总结过一张图,就是在这个阶段要做的一些事情,把它们串起来就是下图: 阅读全文
posted @ 2020-07-23 21:32 PassZhang 阅读(22) 评论(0) 推荐(0) 编辑
摘要:云计算和AI时代,运维应该如何做好转型? 今天我们来聊一聊,在云计算和AI时代,运维应该如何做好转型?今天的内容可以说是我们前面运维组织架构和协作模式转型的姊妹篇。针对运维转型这个话题,谈谈我的思考和建议。 总结运维转型案例 我们先来看业界的三个典型案例,一个来自国外,一个来自国内,最后一个是我自己 阅读全文
posted @ 2020-07-23 14:43 PassZhang 阅读(16) 评论(0) 推荐(0) 编辑
摘要:从谷歌CRE谈起,运维如何培养服务意识? 2016年10月,谷歌云平台博客(Google Cloud Platform Blog)上更新了一篇文章,谷歌宣布了一个新的专业岗位,CRE(Customer Reliability Engineering),直译过来就是客户稳定性工程师。我看了介绍后,发现 阅读全文
posted @ 2020-07-23 14:41 PassZhang 阅读(16) 评论(0) 推荐(0) 编辑
摘要:谷歌SRE运维模式解读 前面我和你分享了一些关于运维组织架构和协作模式转型的内容,为了便于我们更加全面地了解先进的运维模式,今天我们再来谈一下谷歌的SRE(Site Reliability Engineer)。 同时,也期望你能在我们介绍的这些运维模式中找到一些共通点,只有找到这些共通点,才能更深刻 阅读全文
posted @ 2020-07-23 14:36 PassZhang 阅读(30) 评论(0) 推荐(0) 编辑
摘要:如何打造好运维组织架构? 前面几周,我们介绍了Netflix为什么没有运维岗位、应用运维标准化、基础服务标准化以及从应用生命周期的角度如何进行运维建设等内容。这一周我们就来聊聊在组织架构和运维转型方面的话题。 Netflix给我们的启示专栏的第一篇我们就介绍了Netflix的云平台组织架构,你应该可 阅读全文
posted @ 2020-07-23 14:35 PassZhang 阅读(27) 评论(0) 推荐(0) 编辑
摘要:如何在CMDB中落地应用的概念? 我们前面讲了应用是整个微服务架构体系下运维的核心,而CMDB又是整个运维平台的基石。今天我就讲讲在CMDB中如何落地应用这个核心概念,以及如何建立应用集群分组的思路。 如何有效组织和管理应用 微服务架构下会有很多应用产生出来,少则十几、几十个,多则上百甚至上千个。这 阅读全文
posted @ 2020-07-23 14:33 PassZhang 阅读(24) 评论(0) 推荐(0) 编辑
摘要:有了CMDB,为什么还需要应用配置管理? 你不妨先停下来,思考一下这个问题。 我抛出的观点是: CMDB是面向资源的管理,应用配置是面向应用的管理。 请注意,这里是面向“资源”,不是面向“资产”,资源≠资产。 CMDB是面向资源的管理,是运维的基石 我们一起来梳理一下,在建设运维的基础管理平台时通常 阅读全文
posted @ 2020-07-22 21:30 PassZhang 阅读(37) 评论(0) 推荐(0) 编辑
摘要:聊聊CMDB的前世今生 我们前面在讲标准化的时候,对关键的运维对象做了识别,主要分为两个部分: 基础设施层面:IDC机房、机柜、机架、网络设备、服务器等; 应用层面:应用元信息、代码信息、部署信息、脚本信息、日志信息等。这两部分是整个运维架构的基础部分,运维团队是维护的Owner,需要投入较大的精力 阅读全文
posted @ 2020-07-22 21:27 PassZhang 阅读(23) 评论(0) 推荐(0) 编辑
摘要:我是如何走上运维岗位的?谈谈新人入职运维发展的注意事项 我简单分享了自己为什么会走上运维这个岗位,一是责任心使然,出现问题时总是会主动冲在前面解决,另一个是在这个过程中技能提升得很快,很有成就感。不过当时受篇幅所限,并没有完整说明,所以今天我想再来聊一聊这个话题。 聊这个话题还有一个出发点,就是当下 阅读全文
posted @ 2020-07-22 21:25 PassZhang 阅读(50) 评论(0) 推荐(0) 编辑
摘要:如何从生命周期的视角看待应用运维体系建设? 还记得上周我们在讲标准化体系建设(上)的最后,我留了两个小问题,其中一个是这样的: 在对象属性识别过程中,我们进行了一些关键项的举例,但是如果换一个对象,我们有没有好的方法论来指导我们进行准确和全面的识别,而不至于遗漏?从我们今天的内容中,你有没有发现些规 阅读全文
posted @ 2020-07-22 21:24 PassZhang 阅读(13) 评论(0) 推荐(0) 编辑