IT运维的风险在哪里?

童俊
理解IT服务各类风险之间的关系有助于构建IT服务体系时避免上游的风险、消除下游的风险,在源头上解决潜在的问题,集中精力预防而不是医治。总体说来,各类IT服务风险是相互依赖和影响并相互作用的。

做企业经营,有风险;为企业进行IT服务同样有风险。只有正确认别了IT服务的风险和运维服务管理的成功关键因素,才能有效的提升IT服务的质量。本文运用因果图法,以IT运维服务事件处置案例为例,为企业分析IT服务存在的风险。

事件案例:

1、事件:某企业IT部门负责该企业信息机房的维护,负责提供IT运维服务。在2021年3月26日的一次例行设备巡查时发现,机房环控系统报警,信息机房内温度已达30.2℃,超过标准温度。

360截图16450626515344.png

经检查发现,机房内的两台精密空调(负责保持机房在恒温恒湿状态)均处于宕机状态,无法进行制冷,因此机房温度正在持续上升。

机房温湿度标准如下图:

360截图16450626515344.png

2、事件处置:

(1)紧急联系精密空调厂维修服务商对停机空调进行检查和维修;

(2)打开信息机房的新风系统,将室外的冷空气抽送到机房内,进行通风、降温处理;

(3)上报主管领导,作为紧急事件进行汇报;

(4)记录事件并根据制定应急处置方案进行处理:根据应急处置方案,由于当时室外温度最高为20℃,如果保持新风系统的运作,应能保持机房室内温度不超过28℃;并将日常巡查由每两天一次改为一天三次,密切监控机房内的温度。一旦机房温度再次超过30℃,将事件升级到严重程度,发布紧急维护通知,关停机房内的服务设备,保证机房温度在标准范围以内,以确保服务设备的使用状态正常。

经过4天的抢修,已有一台精密空调能正常进行制冷、除湿工作,另一台因问题较多,还在检查中。本次事件暂未对该企业的日常网络服务造成影响。

3、问题分析

事后,对该事件进行复盘,发现存在以下问题:

(1)由于没有签订精密空调的维保协议,无维保厂商定期对机房的精密空调进行检查,无法提前发现和排除精密空调长期运行所积累下的隐患。

(2)检查精密空调的报警日志发现3月24日精密空调已经发生故障,压缩机高压报警并宕机,3月25日上午机房内的温度已经超过警戒值。机房的环控系统没有手机APP消息推送或短信报警功能,只能靠运维人员每两天一次的人工巡查来发现问题。说明A、发现问题的技术太落后,需要更新机房环控系统,采用更加及时的预警技术,B、运维人员的日常巡查制度并没有执行到位。

360截图16450626515344.png

360截图16450626515344.png

(3)该精密空调因长期使用无专人检查维护,曾于2018年7月因冷却管堵塞造成宕机。由于当时正处于酷暑,室外温度高达39℃,无法采取新风系统通风降温的处置方法,只能停机降温,造成该企业正常的网络服务中断长达48小时,为特别重大突发事件(I级)。经维修恢复正常工作后,依旧未签订定期维保协议。

突发事件等级划分标准如下图:

360截图16450626515344.png

一、IT服务的风险分析

从上面的案例可以看出IT服务的风险通常包括人员(管理人员、运维人员的能力和素质)、技术(发现问题、解决问题的技术)、资源(备件库、服务工具的完备)、过程(管理制度的制定和执行管理)等方面。运用因果图分析原因如下:

360截图16450626515344.png

通过对因果图分析结果的归纳汇总可以得到以下IT服务风险:

1.IT服务的管理风险:缺乏服务管理体系,造成服务管理困难,难以维护和难以完成预定的IT服务管理任务。

2.IT服务的价值链风险:一方面,组织需要依赖供应商提供的软硬件等支撑IT业务;另一方面,组织业务的开展也是与具体的客户相关的。如果此价值链发生断裂,供应商不能及时交付高质量的服务或不能向客户提供高质量的服务,则整个IT服务的效用将会受到影响。

3.IT服务的过程风险:组织不能有效管理IT服务的各过程,不能很好地计划、执行,并对执行结果进行监督和改进,这将导致IT服务计划失效、交付失败、无法提供更高质量的服务,从而对组织的1T服务造成巨大影响。

4.IT服务的业务风险:组织不能有效管控IT服务运作的各种日常业务活动,导致IT服务运作的中断或服务质量的降低,进而造成组织IT服务水平的降低,最终影响客户满意度。

二、各类IT服务风险之间的关系

理解IT服务各类风险之间的关系有助于构建IT服务体系时避免上游的风险、消除下游的风险,在源头上解决潜在的问题,集中精力预防而不是医治。总体说来,各类IT服务风险是相互依赖和影响并相互作用的。

1.对IT服务管理风险的处置不当会导致管理层难以掌控服务过程、有效执行处理业务和识别价值链的各环节。

2.对IT服务价值链风险的管理不当会导致难以区分组织的关键业务与一般业务,难以使有限的组织资源发挥最大的价值。

3.IT服务过程风险管理的缺失将导致难以识别完整的服务价值链,对业务流程的有效实施造成影响。

4.对IT服务业务风险的处置不当会导致价值链的断裂和管理层对IT服务业务资源提供判断的失控。

【结束语】IT服务的风险会极大的影响影响IT服务成本和服务质量。所以有效识别IT服务风险和进行风险管理是IT服务管理中重要的工作环节,而且是一项长期工作。对IT服务风险的识别方法也可以类推到企业其他经营活动的风险识别上去,有很大的借鉴意义。

【参考资料】:清华大学出版社-全国计算机专业技术资料考试办公室-《系统规划与管理师教程》

THEEND

最新评论(评论仅代表用户观点)

更多
暂无评论