从招聘角度看运维的一些工作职能(此博文会不定期更新)

    写这篇文章的目的是如何来分析针对运维人员的招聘要求,通常企业内部的运维需求,都是运维负责人或技术负责人等角色来提交到人事部门,因为招聘需求毕竟是一个严肃的事情,所以提交之前制定招聘需求的人员也会根据实际情况来拟定要招聘的人员。但是如果招聘需求出自运维负责人之外的人负责书写招聘需求就未必很懂运维了,这是二十几年来IT行业普遍的现象。这跟运维岗位人员处于核心地位有关。举个例子如果是云计算、大数据、IDC机房维护等可以认为是运维地位比较高。开发一个很牛逼class的人,未必懂多少运维哦!  甚至有时候会是指派一个小白随便考察一个运维大牛都可能发生。

   回到正题,系统运维是什么? 简单来说运维(Operation and maintenance)是指对公司硬件和软件的维护。在但是运维内容实际又分技术层面的也有管理层面的,技术层面又分硬件、软件,所以它是一个体系 。有时我们也会根据工作性质分为系统运维、应用运维以及IT运维等。管理层面来说一般包括作业流程管理(sop)、应急事件处理流程管理(eop)、问题和故障管理、变更管理、发布管理、基础设施标准作业流程管理(mop)、知识管理、综合分析管理、安全管理、数据管理、人员与招聘管理等诸多内容。具体技术层面包括如容器技术(openstack、k8s等)、数据库、监控系统、中间件、组件等具体技术的内容的实施、维护与管理以及硬件如自建机房设备如交换机、ap、路由器、服务器、ups管理等,甚至包括网络布线、安防等一系列问题。 我们这里所说的还是信息技术相关的系统运维,区别于像电站、电气行业、水电等行业的维护。很多人实际误解了运维的概念,甚至可笑的认为就是修电脑、配置下路由器等简单工作。  
   运维工作来讲,当前人力处于一个相对过剩和饱和的阶段,中国的互联网已经走过了快速发展和野蛮生长的阶段,从业者也进入到高质量发展的阶段,从2023年招聘情况也能看得出来,并不是人才真正过剩了,而是市面上流动的人员掌握的技术不够深、不够强、不够专业,从而不能适应企业技术发展的需要。大多数要么从培训机构刚培训出来,要么掌握点皮毛的人员,要么由于技术不过硬裁员下来的,要么是跟不上时代技术,要么吃十年前老本者居多。而且也能看出学习能力是偏弱的,不管哪个行业都需要持续的学习,需要不断跟进当前的技术主流和趋势。当然也必须承认当前形势下,国家经济结构的调整也是导致就业岗位减少的一个重要原因 ,竞争压力很大情况下,就需要了解洞悉市场需求、同时及时更新自己的职业技能。跟上时代的步伐。同时要有好的态度和过硬的本领,顺便说一句虽然it行业来说年龄固然是一道门槛,但是我个人认为它并不是致命的,如果你有很好的性价比,就不愁伯乐。现在流行一句话叫大家都很卷,要认清为什么会这样,新时代中国特色社会主义思想中是有答案的包括我们的国情、所处历史阶段以及如何发展,要看大势,举个例子目前国家已经不再要求gdp,新闻联播里面不再提及,而是转入到高质量发展阶段。所以闭门造车是不可取的,同时决定你收入的根本因素是什么?  我觉得是你对组织的贡献程度,能力只是一方面,你要让别人看到你的价值,不能只说你能力怎么怎么样? 能力强但是贡献很少的也比比皆是。 这就是一个底层的逻辑。当然你的贡献要和你的招聘企业符合度越高,你可能优势就更大。 所以能力是一个综合层面的内容,能力与贡献是一种辩证的关系,有时候并不是纯技术的范畴,要区分好。特别是对于管理者来说就更要提升在企业组织架构层面包括技术、运营、财务、市场、营销、商务等的深入认知。
当然有时候并不一定这么复杂,但是有些单位的性质就决定可能比较复杂,比如央企、国企等,民营当中也会有派系,斗争等。这个在任何企业中都避免不了,只是你需要有清晰的认识和独立的思考能力和立场的分辨能力。

      
下面我们从招聘的角度看一些职位的描述和要求

一、系统运维工程师(system)

Responsibilities of operation and maintenance engineer

岗位职责:
1、参与公司云计算平台产品的系统研究;
2、负责云平台部署开发及单元测试工作;
3、主要包括各种云平台服务,如云主机、负载均衡、自动部署、存储、网络等功能的开发;
4、负责基于docker,k8s,OpenStack的云平台部署、运维工作;
5、 解决部署、运维过程遇到的技术问题;
6、 负责云平台的架构优化和性能优化
7、 参与docker,k8s,OpenStack运维系统的研究工作。
 
任职要求:
1、熟悉CentOS/ Ubuntu等linux系统的安装、使用、调优等;
2、熟悉Bash、Python等脚本编程语言;
3、熟悉KVM、Xen等虚拟机技术,有5年以上部署和运维经验;
4、熟悉docker,k8s,OpenStack安装和配置,有1年以上部署和运维经验;
5、有参与docker,k8s,OpenStack云计算的项目开发及运维经验优先。
6、良好的沟通能力和团队合作能力;
7、良好的学习能力,优秀的文档编写能力;
这种就是偏保障网络环境的正常运行、相关专业技术的维护等。需具备一定的网络基础如交换机、路由、域名、脚本开发、tcp/ip协议的理解以及对专业技术内容的掌握能力。
注意就技术来说 OpenStack 更适合管理虚拟机,而 Kubernetes(K8s) 更适合管理容器,我们用openstack自己搭的云平台,在正式环境的云上使用的是k8s。 同时我们也会看到docker在最新的k8s技术中已被contaninerd代替,版本更新太快并不见得是好事,很多公司还是在是使用旧一点的docker技术,但是可能面临官方不在维护,出现问题就要自己摸索解决问题,同时也不断的有掌握这个技术的人员进入,但是可能掌握的是不同版本。 而K8s整个体系是比较复杂的。真正要深入还需掌握更多网络基础内容的如dns、七层协议、路由、交换等甚至是有必要学习go语言。另外学习和使用是两码事,很多人只是学习了,这个真的价值不大,当然如果你学习的足够深入,也是有机会从事跟k8s相关工作,但是基础要扎实、命令要熟悉、进行过一些破坏性实验等,而不能只停留在这项技术的表面,因为具备生产经验和不具备这个差异是很大的,比如容器挂掉、应用程序导致容器起不来、路由丢失、内存泄露cgroup异常、docker有时候需要重装、yaml配置内存大小错误导致容器错误发生、密钥导致的错误、master挂掉等。 

二、sre运维工程师(网站稳定性工程师)
 岗位职责:
1、负责公司线上系统运维,提升业务稳定性,制定和优化运维解决方案,包含容灾/弹性扩容等;
2、配合各研发方向合作,提供高效的监控、故障快速处理的手段和能力,提升运维工作效率;
3、参与业务系统容量测算和规划设计,优化资源运维成本;
4、审查架构合理性,梳理、识别应用架构风险,解决或推动业务研发解决架构风险;
5、完善相关应用的监控告警、降级与预案建设,组织故障演练、应急止损、事故复盘等稳定性工作;
6、参与设计、开发稳定性相关工具与产品,包括稳定性架构治理、监控报警、预案与演练、定位与止损等相关方向工具平台;
职位要求
1、5年及以上工作经验,本科及以上学历,计算机、通信等相关专业;
2、有较丰富的应急处置、应用稳定性建设经验,有大型网站或者B端产品应用运维经验加分;
3、具有一定的Kubernetes实际使用经验,有社区贡献者优先;
4、熟悉互联网技术架构和相关开源产品,对网络通讯协议、应用服务器、负载均衡、微服务架构有较深入的理解;
5、熟悉应用高可用架构,对架构治理、稳定性架构有较深入理解;
6、熟练掌握Shell或Python开发,有Golang或Java开发经验优先;
7、优秀的逻辑思维能力及沟通能力,高效的执行力,责任心强。

sre主要是为 IT 运营开发软件系统和自动化解决方案。SRE 做的是传统上由 IT 运营完成的工作,所不同的是,
sre 有软件专业知识,他们会利用这些知识来解决复杂的 IT 运营问题。
因此,网站可靠性工程可以被认为是一套实践,将软件工程的各个方面纳入 IT 运营,
从而提高软件系统(IT 运营的运营对象)的效率和可靠性,改善工作流程。
devops于sre密切相关,可以被看做sre的核心原则。所以sre的核心是实现自动化


三、DBA(数据库管理员)
任职资格:
1.计算机相关专业专科以上学历,3年以上Oracle/SQL Server DBA工作经验;
2.熟练使用高可用、读写分离、负载均衡等解决方案;
3.精通Sql Server/Oracle数据库体系架构设计;
4.了解Sql Server/Oracle存储引擎及事务处理机制熟悉Sql Server/Oracle的体系架构,熟悉Sql Server常用存储引擎功能特点和应用场景。
岗位职责:
1、具备数据库的基本概念、结构和原理,并能够进行数据库的创建、配置、备份和恢复。能够监控和调优数据库性能,确保数据库的稳定运行。
2、了解数据建模和数据库设计的基本原则,能够根据需求进行数据库的设计和规划。考虑数据结构、数据完整性、性能需求等因素,并决定如何划分和组织数据表、索引、视图等数据库对象。
3、具备数据库安全管理的知识和技能,包括用户授权管理、权限控制、数据加密、审计和漏洞扫描等方面。保护数据库免受未经授权的访问、数据泄露。
4、能够快速诊断和解决数据库故障,包括数据库崩溃、数据损坏、性能下降等问题。你需要熟悉数据库日志和备份恢复机制,并能够有效应对各种常见故障情况。
5、数据库技术在不断发展和演进,保持学习的态度,持续关注最新的数据库技术和最佳实践,不断更新自己的知识和技能。

DBA的职责广泛且复杂,包括以下方面:
数据库设计:DBA负责根据业务需求设计数据库结构,以确保数据的准确性和完整性。
数据安全:    DBA需要制定和实施安全策略,以保护数据库和数据免受未经授权的访问和更改。
性能优化:    DBA需要监控数据库性能,并根据需要进行调整和优化,以确保数据的快速访问和处理。
备份与恢复: DBA需要制定并执行备份和恢复计划,以防止数据丢失,并确保在发生硬件故障或灾难时能够迅速恢复数据。
故障排除:     当数据库出现故障时,DBA需要迅速排除故障,以最大限度地减少对业务的影响。
数据库监控: DBA需要实时监控数据库性能,以便及时发现并解决问题。

 
四、网络运维工程师(Network operation and maintenance Engineer)

1、熟悉电脑维修、系统安装维护、熟悉监控系统产品,网络布线施工安装调试。
2、负责单位网点监控安防、网络设备安装调试及售后运维;
3、配合系统工程师完成项目后期的实施工作。
任职资格:
1、从事过弱电智能化相关工作,对智能化、安防设备、技术了解;在工程项目有一定的经验;
2、有一定IT基础设施系统运行维护经验和项目经验优先
3、工作主动性强,性格开朗善于沟通、吃苦耐劳,具备良好的沟通能力,服从上级指挥,对待客户耐心细致,有责任心,具备团队合作精神。

有的单位在这个职位要求并不一样,要根据公司的业务性质决定。


五、DevOps工程师

职位描述:
1. 按DevOps需求进行实施,设计和开发构建脚本,编写DevOps工具集的技术文档。
2. 安装、配置和准备DevOps工具集的技术文件。
3. 配合开发团队一起创建和维护持续集成构建工作。

职位要求:
1.大专或以上学历,计算机相关专业,4年以上相关工作经验。
2. 熟悉Docker/Kubernetes技术。
3. 熟悉Zabbix、ELK、Dynatrace等主流的監控平臺。
4. 熟悉DevOps业务模型及相关工具,精通至少一种CI&CD工具。
5. 熟悉Linux操作系统及常用工具,如Redhat/CentOS等。
6. 熟悉Java、Shell和Python等编程语言。
7. 有银行/金融系统开发和运维相关工作经验。
这个岗位也是未来的趋势即自动化、智能化的要求背景下,一些公司也开始独立设置这个岗位,在十几年前也是没有这样的岗位的。当然这也是技术的发展需要。

六、Linux系统工程师
职位描述:
1. 负责应用系统的运营维护、系統监控、日志分析及故障处理等工作。
2. 负责开发运维相关脚本,系統效能調优与系统漏洞修复。
3. 负责应用系统的运维流程、运维规范制定及实施
4. 参与设计和优化应用系统的监控、策略和实施。
5. 参与应用系统的整体规划、架构设计与优化等工作。
职位要求:
1. 计算机或相关专业毕业,大专以上学历,至少5年以上相关工作经验。
2. 精通Linux系统(如:RHEL)的配置与管理。
3. 熟悉Zabbix、Promethus等主流的监控平台
4. 熟悉docker等容器技术,并具备实际操作经验。
5. 精通 Jboss、Redis、Tomcat、Nginx、Mysql等环境安装配置及调优。
6. 熟悉 Shell/Python/Perl 中一种脚本语言,能根据运维需求快速开发相应脚本。
7. 有RHCSA/RHCE/RHCA/RHCSS认证有限考虑。
jboss是应用服务器,tomcat是web服务器,jboss可以部署ejb,当然现在的tomcat也可以部署ejb但是高版本。

七、k8s运维工程师
 工作职责:
1,负责Kubernetes等容器编排关键技术的研究及开发优化工作,保证在线上高效稳定运行。
2,负责Docker、Kubernetes、Istio等相关技术研究和应用。
3,前沿技术的调研与应用。
4,分析系统瓶颈与架构合理性,促进服务架构优化,通过工具与平台的建设,提升运维效率。
5,能够及时响应并处理业务的异常情况。
 任职要求:
1,3年以上运维工作经验。
2,熟悉TCP/IP,HTTP/HTTPS等协议,有完整的网络和系统架构知识体系。
3,熟悉Linux系统的管理和优化,具有Shell、Python脚本编写能力。
4,熟悉Docker容器原理,掌握DockerFile编写和容器维护。
5,掌握Kubernetes等容器编排服务框架,熟悉Kubernetes源码优先。
6,熟悉Jenkins,熟练掌握groovy。
7,熟练掌握关系型和非关系型数据库的使用与维护,如MySQL,Redis等。
8,有运维自动化(devops)、发布系统等开发经验者优先。
9,有较强的学习能力,良好的沟通能力和责任感,能够承担工作压力,独立分析和解决问题。

八、云计算运维工程师-企业集成部(云服务厂商)

岗位职责:
1、需支撑7*24小时运维值守工作
2、云公司会提供手册,技术人员主要解决标准操作和告警处置(看告警 按照sop处理告警)

岗位要求:
1、 深入理解Linux、windows操作系统、体系结构,可熟练使用Shell/Perl/Python等语言中的一种或多种;
2、 熟悉OpenStack核心组件,如nova, cinder , glance, neutron, keystone等;
3、 熟悉基本网络知识,具备hcnp或ccnp或等同经验者优先,具备云平台维护经验者优先;
4、 熟练掌握主流虚拟化技术,熟悉虚拟化各项功能原理,能够进行规划实施者优先;
5、 有相关云商维护工作经验者优先;
6、 对于K8s等容器类规模化集群有2年以上工作经验者优先;
7、 有相关客户服务或客户支撑经验者优先;
8、 具有强烈的团队协作意识,高度的责任感,对工作积极严谨,勇于承担责任,逻辑思维能力强,有较强学习和创新能力;
9、 具有较强的抗压能力和执行力。
  当然很多云厂商也使用vmware搭建云主机平台。 云主机存在几种情况,共用资源可能会导致自己的业务系统出现瓶颈,监控不及时导致磁盘满,从而挂掉情况
同时也有按照1:1比例虚出来的云主机,这个费用一般比较高。需有特殊需求时采用。
IaaS、PaaS、SaaS等云服务的维护和开发。

九、驻场运维工程师
主要职责:
熟练VMware虚拟化,熟悉VCenter安装,使用VCenter管理ESXI主机和虚拟机(新建、克隆、迁移)
了解VMware虚拟化特性,虚拟机和虚拟机网络及存储配置
存储:存储相关的知识,本地存储和共享存储
网络:有网络基础,知道vlan网络相关知识
硬件:服务器硬件认知,X86服务器,交换机及存储设备
操作系统:熟悉linux操作系统和Windows-server操作系统安装及使用
监控:了解zabbix监控服务器运行状态与性能指标监控
工具:了解虚拟机的备份服务VDP,虚拟机信息导出工具RVtools等

十、等级保护测评工程师招聘

测评中心面向社会招聘等级保护测评工程师。具体要求 如下:

(一) 岗位职责

负责信息系统等级保护测评项目、信息安全风险评估项目的实施工作,包括编写测评方案、现场测评、使用测评工具、编写测评报告等。

(二)   任职要求

1、政治立场坚定、思想端正,有较强的组织纪律性;
2、信息安全、网络安全、计算机科学与技术、软件工 程等相关专业,全日制本科及以上学历;
3、具有信息安全等级保护测评、风险评估、运维和集 成实施经验。熟悉信息安全等级保护、风险评估相关标准;
4、沟通能力强,具有较强的组织能力、推动能力,良 好的客户服务观念、工作责任心及团队合作精神;
5、具有较宽的知识面和现场解决问题的能力,具有较 好的文档处理能力;
6、能接受出差;
7、具有等级保护测评工程师证书、CISSP、CCNA、CCNP、 CISP证书者优先。

十一、运维经理
岗位职责

1. 负责数据中心基础设施运维管理工作(设施维护、保养、资产管理、故障演练,故障管理、供应商管理等);
2. 负责数据中心运维服务团队的日常管理、培训及团队建设;
3. 负责数据中心运维标准化体系的建设(包括SOP、EOP、MOP的制定和发布;相关数据、文件、表格的检查、整理和归档);
4. 负责内外部协调沟通;负责大客户售前支持;
5. 负责对系统资料进行整理归档;
6. 负责数据中心运营成本控制,能耗管理;(注意行业特点)
7. 负责客户售前支持,项目管理和交付管理;
8. 负责完成上级领导布置的其他工作。

上面只是很小的一部分,不同的行业也决定了运维内容的差异性,比如:云计算、IT行业、光伏、IDC、弱电、数据中心等,他们的运维职能也有诸多不同。

当然不同公司根据自己业务的需要,职位的职能划分的标准可能不同、就it行业来说比如系统工程师也会担负DBA的职能、系统工程师可能只是负责操作系统层级的内存、cpu、io以及网络等维护与管理、而应用系统的整体运维管理可能只是应用运维工程师的职责范畴,也有的公司直接设置k8s工程师岗位。这就需要相关管理人员根据公司情况灵活设置岗位职能和要求。但是如果过度的细分岗位反而导致一些人能力的下降,因为很多维护工作不需要你介入,那么你就得不到相关知识的技能以及相关经验,生存空间也会大大被压缩。

  不妨我们按照应用运维、平台运维、基础运维、运维管理划分下职能或职能组
   1、应用运维包括应用测试、应用接口、流量、负责等监控、应用日志管理、应用服务器的优化、应用安全审计等(可以把k8s这种放入应用运维)
   2、平台运维/系统运维包括中间件支撑、操作系统维护、数据库运维、运维管理平台(监控体系)、云资源管理(包括对账、工单、云主机、云控制台、云服务等的管理)、数据中心等
   3、基础运维包括网络运维、数据备份与恢复、容灾处理、安全运维、机房运维、设备管理、资产台账管理等。
   4、运维管理中心内容是运维标准与制度制定,具体可能有网络管理、应用管理、数据库管理、设备管理、数据备份与管理、应急响应管理、灾难恢复预案、变更管理、发布管理等等。
 
 当然我们实际工作中招聘内容可能体现不出来的,而且招聘中可能提到的问题都不是招聘要求的内容,会遇到很多可能归属运维与it内容相关的,内容比较琐碎也在这里列下:
1、域名购买、变更、续费、备案、多个域名的管理等。
2、nginx ssl证书的更换、nginx配置文件管理、nginx负载平衡设置与维护、nginx日志管理等。
3、网站三级等保、二级等保等即 网络安全等级保护测评(参保后,后续每年都要进行等保)。
    需符合相关的法规要求具体有《国家网络安全检查操作指南》《关于落实网络安全保护重点措施深入实施网络安全等级保护制度的指导意见》《中华人民共和国数据安全法》  信息安全技术大数据服务安全能力要求(GB∕T 35274-2017 )   《工业和信息化部关于印发《公共互联网网络安全威胁监测与处置办法》的通知》等
4、招投标服务的管理(包括制作标书、组织评标等)。
5、运维相关人员的招聘需求和绩效制定和人员管理。
6、自建机房包括自动温度监控系统、ups、交换机、路由器、小型工作站、服务器、ap、机柜等硬件设备的选购、配置等。
7、cdn服务选购、购买(按照带宽或流量购买,注意试用流量问题)。
     如果公司访问量达不到你可能也不会具备这个经验,因为不只是你知道,而是要在前期选购和来公司交流等从而具体了解cdn服务提供的内容。所以有时个人实战经验的积累和公司的成长密切相关的。
8、短信服务购买。(按条购买,充值,同时可能会有保函)
9、云服务提供商的选型与服务购买,财务定期对账等。
10、监控设备安装与维护。
11、相关技术合同管理包括cdn合同、ssl证书购买合同、云服务合同、外包合同、短信服务合同、相关的设备购买合同如ups、等保合同、ap设备购买合同、视频存储服务等。
       其它还会包括各种如:请华为工程师安装oracle集群费用、水晶头、网线、网线测线仪、网钳、插线板、刀具、转换头、胶带、路由器、交换机、ap设备、AC控制器、小型工作站、服务器、固定电话、电话线、电话插头、电话程控机等费用。
12、跳板机、堡垒机、vpn、svn、git、harbor、jenkins、数据库账户密码、服务器、小程序、微信开发者工具、蓝湖切图(可能会由设计部门牵头)、运营等账号等管理与维护。
13、资产台账、资产清单、成本控制、数据资产管理等。
14、安全审计与系统安全漏洞扫描。
      定期访问国家互联网应急中心、工信部官网的每周网络安全信息与动态周报、国家信息安全漏洞共享平台等
15、与开发部门一同审议运维成本支出等。
16、sop、mop、eop等流程的制定。
17、云服务迁移(如果云计算厂商的底层服务的物理机过老,会出现不稳定,不定时宕机情况发生)。
18、小程序申请、工信部备案(可能会由开发部门来牵头进行)。
19、ios开发者账号申请、续费(可能会由开发部门来牵头进行)。
20、 知识库搭建和管理。
21、数据备份与恢复演练(不能只备不做恢复性测试 ,往往大家疏忽恢复这个环节)。
       数据在非生产环境中不可全量数据、数据需脱敏处理、数据下载需加密处理。
21、办公网络环境的治理具体有路由器治理、ip固定、防火墙设置、屏蔽游戏、娱乐访问等。
23、同城灾备、多云容灾、异地容灾、多云管控等。
24、数据安全隔离、测试环境与正式环境隔离等、
25、办公网络、测试环境、灰度环境、正式环境等网络的拓扑图制作
26、测试环境和正式环境网段隔离(互不访问)。
27、准测试环境、测试环境、灰度环境、正式环境的管理。
28、监控体系的治理与管理。
具体技术层面
1、mysql自动化安装与维护,另包括一主一从,主主、一主多从、一机多mysql、mha高可用以及mysql集群,mycat、MongoDB等的管理
     mycat对于快速调整mysql节点或架构还是不错的选择,一直运行也比较稳定。可单独设置balance=0,1,2,3 
     具体架构如何实施需要根据需求、访问情况以及服务器资源等综合考量和设定。
2、oracle单机、oracle主从、oracle集群、ASM存储等管理
     这里单独说下,如果你没有实际经验,你可能并不知道一台高配的oracle的成本开销在哪里,同时会遇到哪些问题和需求。所以为什么经验丰富重要。就是这个道理
3、mysql-->oracle数据迁移(etl工具kettle)
      kettle做为老牌的一个技术,需要掌握如何处理,这个就是够喝一壶的了
4、ElasticSearch集群维护
      Kibana+es日志分析、搜索分词
5、redis集群的数据动态迁移和动态切换
     目前市面上还没有看到到开源的能动态2个集群切换的中间件,就需要自己摸索
6、nfs /glusterfs 共享存储配置和管理
     很多都是在云上,但是有一次就发生了nfs磁盘满挂掉的情况,是物理机挂掉了
7、linux时间管理(centos6/centos7有不少差异)包括ntpd等
     有些应用对时间要求精确很高,那么就必须要熟练掌握时间如何进行调整和设置。
8、rocketmq、mq、redis、Haproxy等的管理与维护
9、vpn、堡垒机(teleport)、跳板机的管理
10、磁盘、内存、cpu、机器等的监控
11、postgresql数据库的维护
12、ansible、puppet的管理(playbook脚本编写)
      如果几台机器,没有安装必要,但是就是一个ping命令,面对几百台的时候就会大大简化工作量
13、k8s集群管理(rancher)
      k8s节点管理,用rancher很方便,用k8s命令效率可能会低一些,当然你对命令如果足够熟悉,也无所谓。
      同时涉及k8s集群多主管理、内部的密钥、dashboard密钥和账号、rancher、kubesphere、Kubespray、Kubeadmin、prometheus和grafana监控、pod、节点、日志、数据备份、监控、路由、dns、高可用、结合nfs、k8s全自动化部署、多集群管理、版本升级等的管理。
      当然每家公司采用的版本、规模、人员对k8s掌握程度不同,从而导致管理上有着的巨大差异的。比如:增加节点通过克隆方式、集群版本升级(这个难度比较大)
14、机房迁移
      曾经经历过两个机房的机器迁移,k8s对于混合云情况还是不错的
15、云主机和服务迁移
     安全、稳定、持续的提供服务是运维保障的根本要求,这就要求迁移要把所有问题在测试环节解决掉,不能有死角。要有相应的具体迁移方案。
16、日志管理
     能不能便捷的管理日志、通过日志及时排查或找到问题是日志管理中的一个要求,包括系统日志、业务系统操作日志、web访问日志、用户日志(远程登录或业务系统)、系统登录日志、内核启动日志,业务系统调试日志,程序日志,数据库binlog等,我们应认识到日志的复杂性和重要意义。
17、数据备份、恢复的管理(nfs或磁盘阵列)
18、dns解析配置
19、audsql管理平台
20、git、gitlab、jenkins、harbor、docker部署脚本、k8s等的安装、维护与管理(devops)
21、shell、python、perl等脚本的编写
22、prometheus、zabbix、Grafana、Kibana、rancher、dashboard、kubesphere等的配置、管理与维护
23、dubbo、zookeeper、springboot、springcloud体系的维护包括配置中心、nacos集群或eureka集群等的管理
24、抓包工具、流量实时监控等根据问题常用的一些工具如iotop、iftop、iostat、perf、systemmap,还有jdk的工具套件。  
25、服务器密码管理
      这条是运维的生命线,如果你不妥善的保管,当服务器众多,人员离职频繁都可能是一个灾难,因为当服务器很多时,通过会进行免密处理,包括nfs互通,如果管理混乱,这时服务器之间可能会有多次免密操作,从而导致你不敢轻易对之前的密码进行更改。如果不小心的更改,你不知道会对原来的业务产生哪些影响。
26、操作系统本身如redhat、debian、centos(6,7等)、ubuntu等系统补丁或修补系统安全漏洞以及系统升级。
27、内核版本升级( kernel.org)和软件升级等
28、多nginx代理+nfs+lsb或前段负载平衡设定等
29、数据层面包括来源、类别、等级、规模、载体、处理目的和方式、使用范围、责任主体、共享、传输、安全保护(例如销毁)等
30、机器免密操作设置和操作。
31、操作系统的内核、内核源码以及操作系统目录结构以及操作系统原理。
     此篇博文并不想很正式,随想随写,会比较琐碎。也体现这个工作的琐碎性。 但是运维部门管理中,往往会涉及到多个层面的设计和实施内容包括运维制度与流程、资产管理方案或办法、投产发布流程(包括测试报告和验收报告)、系统容灾方案、数据迁移方案、高可用建设方案、数据安全管理办法、系统保障方案、安全事件处理流程、应急保障方案、应急故障处理办法(故障等级)、数据分级分类管理方案、运维标准规范、安全(事件)管理制度、信息安全管理办法、项目管理办法、IT基础设施保障方案、上网管理办法、集群升级管理方案、devops自动化运维方案、中间件安装文档(如redis、mq)、设备管理办法、数据提取管理办法、系统巡检方案等等。 
   当然不同时代、不同公司、不同人员的技能以及不同需求等都会导致采用的具体技术可能会有很多差异。比如:老点的memcache、squid、keeplived、kafka、hadoop体系、spark体系等等。 举个例子就是大数据、云计算的兴起,也促进了相关技术的应用,容器化技术的快速发展也带来了机会和挑战。
 
   我们工作如果想做到有章可循、有法可依就需要学习相关的技术标准以及法律法规,以便结合自身制定和实施组织内的标准和措施。当然这里侧重点是IT运维相关的。
  《GB/T 28827.1-2022信息技术服务》 标准来参考制定自己的相关实施标准与规范。
 《ISO/IEC 27001 系列 信息安全管理体系标准》 2022.12.29 (侧重信息管理安全)
  《ISO9001 质量管理体系标准》  (侧重的是质量管理方面)
    iso标准 -->  https://www.cnblogs.com/aozhejin/p/16352574.html
    英国标准ISO27001:2005已经成为世界上应用最广泛与典型的信息安全管理标准
  《信息安全技术—网络安全等级保护基本要求》(GB/T 22239-2019代替2008年的标准) 
   《国家网络安全检查操作指南》2016.6
  《关于落实网络安全保护重点措施深入实施网络安全等级保护制度的指导意见》
  《中华人民共和国数据安全法》  2021.9.1发布实施
   《中华人民共和国网络安全法》  2016.11.7发布实施
   《工信部数据安全管理办法》 工信部网安〔2022〕166号 (2022年12月8日)
   GB∕T 35274-2017  《信息安全技术 大数据服务安全能力要求》
   GBT25069-2022:《信息安全技术 术语 》(先后有多次改动,请依据年份更新)
   回顾2022年国内网络安全重要标准 国家标准和行业标准 -->https://www.cnblogs.com/aozhejin/p/17129557.html
 《信息安全事件分类分级指南》GB/Z 20986-2007
 《信息技术、安全技术、信息安全事件管理指南》 GB/T 20986-2023
《国家突发公共事件总体应急预案》
  《国家网络安全事件应急预案》
 《网路安全审查办法》2022年2月15日起施行
  《关键信息基础设施安全保护条例》 2021-08-18
   《数据安全法》2021年6月10日
     GB/T 36073-2018 《数据管理能力成熟度评估模型》 
    
    《信息安全技术 网络安全事件应急处置规范 》 -地方标准-北京市 
    《 信息安全技术 信息系统灾难恢复规范 》GB/T 20988-2007
     《信息安全应急响应计划规范》GB/T 24363-2009
     最新相关国家标准实施时间以及废止日期请查看 ,同时也可以搜索查看到相关标准
     https://std.samr.gov.cn

     https://std.sacinfo.org.cn/home/query  (官方查询演示-->https://www.cnblogs.com/aozhejin/p/17971792)

 



posted @ 2024-01-08 11:23  jinzi  阅读(317)  评论(0编辑  收藏  举报