互联网技术 · 2024年2月2日 0

韩晓光:系统运维体系架构规划改写后的标题:系统运维体系架构规划

本文主要介绍运维体系与架构的设计规划,这将引导我们从一个高屋建瓴的角度去考虑如何组织运维团队,如何规划运维架构,用什么构建起运维架构,以及如何开展运维工作。

图1-1本文将会引入很多简明的运维实践示例来形象直观的告诉大家如何构建起运维体系。通过学习本文内容将会使我们具备规划与构建整个IT运维体系架构的知识和能力。

运维体系是运维的基础和核心。通过运维体系的构建及完善,使我们的运维做到稳定可靠,准确完备,规范科学。从某种角度来看,系统运维体系可以用一个四面体来描述,包括四大方面:人、事、物、流程标准。

从人、事、物、流程这四个方面便可以很好地将运维体系进行解构,它们彼此互相作用,共同构建了一个完整实用的运维体系。下面列举了这四个方面各自的含义及相关内容。

人:例如完善岗位职责与职业发展、提高团队技术水平、完善技能分享与培训、完善团队绩效考核、规范工作行为规范等。目的是要建成一支工作高效、技术水平高、团结稳定、有职业素养的运维团队。

事:例如做好日常基础运维工作,保障好生产业务运行。不断探索新的运维理念与技术,探索优化系统架构。具体可以分为几大块,例如运维流程管理,资源架构规划,应急与故障处理,监控与优化,安全与防护,项目及日常工作,等等。目的是要明白运维做什么正确的事,怎么正确地做事,做事有章法,稳定高效能。

物:主要是如何管理好系统运维所涉及的各种资源。例如机房环境、办公设备、服务器、网络设备、操作系统、应用软件、工具等各种软硬件资源。目的要使各类资源配置管理妥当,清楚资源属性,知道从哪来,现在哪,要去哪。使得物尽其用,物有所值,安置妥当。

流程标准:运用流程标准将上述要素(人、事、物)有机地结合,有序科学地流转、高效稳定地运行。例如资源规划与采购,各种标准规范、项目规范、软硬件配置部署规范、安全制度、工作交接,等等。

就上述四大方面,下文继续展开论述,当然也仅是一些内容的列举,毕竟具体到每个企业组织,其运维工作内容可能会大同小异。

1.1团队人员规划

1.1.1岗位职责划分

一个优秀企业(组织团队)的核心竞争力其实说到底就是人。合适的人在合适岗位上正确地干正确的事情,这就是核心竞争力。一个好的运维团队也是如此,人在运维体系中就是核心,好的运维团队能够有效地、高质量地、相对低成本地发挥各个运维元素的功效,达到更完美的运维效能。

对于运维岗位划分,很多企业大同小异,一般都是以保障业务生产稳定高效运行为目的,根据自身企业发展需要划分岗位。小微企业可能没有专门的运维人员及岗位设置,稍大的一些企业也可能由其他岗位人员(如开发人员)兼职运维人员,发展到中小型企业后往往就会设置专门的运维岗位人员从事日常维护工作。对于中大型企业一般都会有专门的运维团队从事专业的运维工作,而且不仅仅是运维,还包括运维开发。

随着运维的发展,运维岗位也逐渐细分很多种,各个企业岗位设置与职责也不尽相同,但岗位工作内容大同小异。大致有如下岗位:系统管理员、数据库管理员、网络管理员、机房环境管理员、运维开发工程师、应用运维工程师、服务管理工程师、安全审计工程师、架构师等。

有了岗位设置及专职人员,然后就会产生人力职业发展、技能培训、绩效考核等一系列问题,这些问题往往即相互联系又各成一体。

如下是某企业的岗位职责划分示例:

岗位(一级分类)通用职责要求是系统管理每个岗位都应履行的职责。

岗位(二级分类)专项职责是针对每一项工作岗位的职责要求。

岗位(三级分类)专人职责是针对每一个人设置的各自不同的具体职责。每个人在执行通用职责的基础上同时履行各自的专项专人职责。

岗位(一级分类)通用职责示例通用职责如表1-1所示。

表1-1

续表

岗位(二级分类)专项职责示例如下是系统管理岗位工作示例:

表1-2

续表

1.1.2岗位交接示例

因人员的短期离岗(以及离职)会给运维的稳定性、安全性、经验传承、资料留存、以及团队稳定等众多方面产生一系列影响,运维工作中的故障隐患很大比例来自于岗位交接。因此运维工作的岗位交接是个重要的事情,表1-3是岗位交接制度示例。

表1-3

续表

1.1.4技能培训

不同的企业,对人力的培训也各有方式,轻重不同,内容有别。有的企业注重以老带新,有的企业注重个人自学,有的企业注重内部交流,有的企业注重外部培训。培训往往也与岗位发展、财务状况、绩效考核、奖惩福利等相互关联。

从培训的途径来看,培训主要分为内训和外训两种方式。

内训:由公司人力部门(或其他某部门)组织的培训,包括外请其他公司专家、公司内部讲师(一般都是有经验特长的内部员工)。

外训:(1)由公司出资金为员工提供外部的培训(员工个人申请培训内容、培训机构、价格。经公司审批后即可外训)。

(2)公司签订的部分合同中附带有一些培训。

(3)由公司组织联系到其他单位参观交流。

(4)由其他厂商邀请的技术大会、峰会等。

(5)由公司组织选拔资助少量员工直接到其他单位实地锻炼学习。

(6)由公司选拔资助少量员工参加一些脱产或不脱产的继续教育学习。

1.1.5绩效考核示例

有人对应岗位做相应的工作,自然而然会有绩效问题,也因此也会产生绩效考核相关制度。

运维考核的难度在于如何定义KPI关键业绩指标、如何定性与量化,每个企业单位内部都不一样,需要根据自身环境定制基线。

考核的方式多种多样。可以按照时间分为周考核、月考核、季度考核、年终考核。也可以按照KPI等关键因素进行考核。也可以从上下级人为主观考核。也可以由评审委员会考核。

表1-6是某运维部门考核标准示例。

基础设施相关物资规划

做饭要有材米油盐,打仗要有弹药武器。干运维,也要有一系列软硬工具。什么算是运维工作的工具,恐怕这个也没有明确定义。运维所涉及的工具物品,有看的见的,也有看不见的;有摸得着的,也有摸不着的。这里简单概括一下运维工作会用到的各种软硬件、工具、设施。

机房基础设施环境示例

如下列举的是机房基础设施环境相关要素,如表1-7所示。机房不论大小,基本上都会涉及到如下几大主要工程(系统)。

续表

服务器产品示例

对于大多数企业通常是采购现有品牌(也有些企业是定制设备),产品示例如表1-8所示。

存储设备示例

存储设备示例如表1-9所示。

操作系统示例

操作系统示例如表1-10所示。

常用软件示例

常用软件示例如表1-11所示。

续表

运维流程标准规划

将上述要素(人、事、物)有机地结合,有序科学地流转、高效稳定地运行,就得靠科学合理的流程,如各种规章制度、流程标准。

流程就好比珠宝上的穿绳,就好比一个人的思想,就好比社会法律规范。流程是一个企业的流水线,是企业的行为规范,是企业制度与文化的组成部分。合理的流程规范像血液,能让部门稳定高效地运转,这是企业专业与否的重要组成部分。

运维工作到底有多少流程,这个无法穷举,就好比一个人的思想到底有多少,因人而异,因时而异。关于IT服务运营流程,ITIL流程在全球享有盛名,ITIL为企业的IT服务管理实践提供了一个客观、严谨、可量化的标准和规范,这在后续章节做专题介绍。本文主要列举运维工作中一些常见流程规范。

商务流程

商务公开招标流程示例:

商务公开招投标大致流程如下所示:

采购启动 → 需求确认 → 委托招标上报 → 签订委托协议 → 标书准备(采购部门技术标书准备,商务部门组织商务标书准备,标书合并)→ 提交标书 → 专家评审意见反馈 → 公开招标上报 → 公开招标 → 招标结果上报 → 商务谈判 → 合同签订上报 → 签订采购合同

运维制度流程

一、项目管理制度示例:

以下简要介绍项目开展与实施相关制度流程

1、 执行集团和公司的项目管理规定。

2、 项目范围为公司和部门下达的各类项目。

3、 每年10月底之前,部门结合公司下达的任务和部门的生产需求,研究讨论制定部门下一年度的项目计划,完成项目建议书(含目标、范围、完成时间、费用估算等)

4、 每年12月底之前,针对部门下一年度的项目计划,通过任命和竞聘相结合的方式产生各项目经理。部门和项目经理应根据项目建议书中项目目标、范围、时间要求等内容,并根据人员的实际情况,在10个工作日内,组建项目团队,提交可行的验收标准、项目计划、管理章程

5、 项目的实施流程主要分为一、启动项目呈批件;二、可行性分析和技术方案形成阶段;三、方案完善阶段;四、提交启动商务呈批件;五、提交商务谈判说明和启动商务呈批件;六、商务谈判过程;七、提交合同签订呈批件阶段;八、到货验收阶段;九、试运行阶段;十、项目验收阶段。

6、 原则上产品供应商的选择不少于3家,如果产品唯一那么集成商或代理商选择不少于3家。

二、需求处理流程规定示例

需求提出者在ITSM系统流程中向职责对应团队小组提出需求,承接团队对需求进行分析处理,处理流程示例如下图1-5。

图1-5

三、故障处理制度流程示例:

1. 故障来源于客户报告、值班人员巡查、监控系统监控、日常例行检查等。

2. 根据故障对用户的影响程度,对故障进行如下分类:

严重故障:生产系统、数据库、网络性能严重降低,应用系统运行缓慢,工具软件不可用,机房供配电系统发生故障等对生产安全运行存在严重