如何实现存储的故障预警 / 故障报修 / 故障修复 / 部件更换的全线自动化运维管理?

twt企业IT社区
存储硬件更换在制度上纳入ITIL流程变更管理,通常需要由存储运维人员在ITIL管理平台申请事件工单和变更工单。运维人员梳理设备告警情况,并跟厂商确认好部件更换工作,先在ITIL管理平台中提出事件工单,然后关联此事件工单创建变更工单。

本文来自微信公众号“twt企业IT社区”。

邓毓江西农信运维技术经理:本议题由某股份制银行存储架构师曾祥满、某商业银行存储工程师徐子晨针对议题下关键点发表主张,几位专家的主张在某农商银行架构师胡海光、某农信资深技术经理雷智及我本人的复议后,形成了一定的共识,希望可以对同行有一定的参考。

曾祥满某股份制银行存储架构师:

为了提升存储告警处理的自动化运维管理水平,一方面需要在告警消息的精准推送上下功夫,在硬件监控平台新增恢复告警,减少告警定位和设备报修中带来的时间人力开销;另一方面还需要打造智能平台,促进硬件监控平台和ITIL管理平台自然衔接,从而替代运维人员做好流程管理的跟进及反馈等工作。

存储作为存放金融企业数据中心各类生产数据的重要载体,其日常的安全平稳运行至关重要。特别是应对若干存储的大量告警,如何从大量告警中提取关键告警消息并及时处理异常,可谓对存储平台的稳定运行起到保驾护航的作用。存储告警处理作为常规工作,一方面需要在技术层面上及时发现告警并处理,另一方面还要在制度层面符合ITIL流程管理的规定。存储告警中硬盘及电池的告警相对较多,此类告警出现时通常需要更换备件解决,且更换操作均属于标准流程。因此,存储硬件类告警的日常处理,如果兼顾流程、实际情况能纳入自动化管理,对于工作效率的提升将十分明显。下面分别介绍“传统、目前、未来”三个阶段在发现存储故障、提交厂商信息报修、同步ITIL流程三个方面的具体情况,旨在帮助读者更好地了解在自动化推进中各阶段亟需解决的问题。

一、传统存储故障处理流程

1.发现存储故障

机房值班人员通过每天定期现场巡检,借助存储物理亮灯可以发现异常情况并告知存储运维人员进行处理。由于人工巡检频率较低,发现异常相对比较滞后,且存在漏检可能。为了能及时发现存储设备存在的告警,早期通过在各存储管理平台配置SNMP Trap,将告警信息由运行监控中心发送给存储运维人员。这类告警即时性相当高,有效辅助运维人员在第一时间发现设备异常,但告警消息数目较多且缺乏过滤及压缩,也给运维人员的日常工作带来了一定的困扰。

2.提交厂商日志确认并安排维修

SNMP Trap类告警消息因缺少设备序列号、机柜位置、部件位置、部件规格等明确信息,无法直接转发给厂商工程师进行设备报修,一般需要单独收集相关日志发送给厂商进一步分析,或者需要运维人员通过命令行或GUI等工具反馈具体信息给厂商。设备报修要求出具相关部件的准确信息,而基于一定规则定制的告警消息无疑将使报修流程化繁为简,在日常运维中将节省大量的时间。

3.纳入ITIL流程

存储硬件更换在制度上纳入ITIL流程变更管理,通常需要由存储运维人员在ITIL管理平台申请事件工单和变更工单。运维人员梳理设备告警情况,并跟厂商确认好部件更换工作,先在ITIL管理平台中提出事件工单,然后关联此事件工单创建变更工单。事件工单经服务台确认后需要运维人员反馈事件原因和解决方案。变更工单经变更经理审核后需运维人员制定方案,并依次经变更经理、室经理、分管负责人审批后方能实施。变更实施完成后,运维人员还需要在事件工单和变更工单中说明变更时间和实施情况,如图1所示。

360截图16251112669372.png

图1传统阶段存储故障处理流程示意图

二、目前存储故障处理流程

1.发现存储故障

引入硬件监控平台,按照一定的时段轮询获取各品牌型号存储的告警信息。此类告警较Trap而言即时性相对较差,但采用了一定的规则过滤出等级较高的信息进行推送。告警消息少而精,便于定制,能更好地满足运维人员的日常管理要求。例如,针对重复的告警,可以采用压缩算法,通常可以4小时报一次,直到问题解决。针对info、warning等较低级别的告警可以实现过滤,而只给运维人员推送error和critical等较高级别的告警。

2.提交厂商关键信息并派件维修

借助硬件监控平台的广泛使用,设备告警消息通过运行监控中心按一定规则拼接后可以发送给运维人员。对于绝大多数情况,运维人员无需再登陆系统进行二次确认,直接可将告警消息转发给厂商人员即可安排派件维修。

3.纳入ITIL流程

同传统阶段,运维人员仍需在日常工作中消耗一定的时间和精力来申请事件及变更工单并跟进流转。如图2所示。

360截图16251112669372.png

图2目前阶段存储故障处理流程示意图

三、未来存储故障处理流程

前两个阶段在变更实施和ITIL流程管理上,两条线相对独立尚未进行融合,这与自动化运维管理仍有一定的差距。为进一步优化日常存储告警的处理工作,未来应着力于在ITIL流程中实现工单中模板化的东西由系统推送,并根据监控平台推送的恢复告警来自动反馈工单的解决方案和实施情况等信息。

1.发现存储故障和判断故障恢复

目前硬件监控平台只能抓取设备的异常告警,对于故障修复后未能生成恢复类告警,需要人工参与判断是否完成故障修复。若监控平台对于特定设备能及时判断故障是否修复并生成恢复告警,则有益于推进ITIL流程的自动化管理,极大减少人工参与环节。

2.提交厂商关键信息并派件维修

此部分尽可能针对不同品牌型号的存储及不同部件,进一步细化告警信息,从而实现告警消息转发后的正常派件维修即可。

3.ITIL流程自动化审批

硬件监控平台将收集到的异常告警及时推送至智能平台。智能平台加工整合收集到的异常告警,识别出常见的坏件告警(例如硬盘、电池告警),并基于选定的时间范围,按照既定的模板向ITIL管理平台提交事件工单和变更工单申请。变更工单经变更经理审核确认后,由智能平台提供模板完成方案制定环节的提交。ITIL管理平台在事件工单经服务台审批后发送给智能平台处理,并将变更工单实施环节发送至智能平台进行处理。后续由硬件监控平台捕捉设备告警是否修复,如正常完成修复,向智能平台及时推送恢复告警消息。智能平台最终基于恢复告警消息,向ITIL管理平台反馈实施情况从而关闭相关工单。显然,智能平台承担了运维人员ITIL流程管理相关的工作,其对监控告警的识别和整合发挥着不可替代的作用。如图3所示。

360截图16251112669372.png

图3未来阶段存储故障处理流程示意图

综上所述,为了提升存储告警处理的自动化运维管理水平,一方面需要在告警消息的精准推送上下功夫,在硬件监控平台新增恢复告警,减少告警定位和设备报修中带来的时间人力开销;另一方面还需要打造智能平台,促进硬件监控平台和ITIL管理平台自然衔接,从而替代运维人员做好流程管理的跟进及反馈等工作。

徐子晨某商业银行存储工程师:

通过技术手段构建智能自动化的生产力工具,已然成为了提高运维效率、释放运维压力、改善运维工作的主要模式。

一、引言

银行金融机构的信息系统根据监管要求信息科技部门都会建立健全的投产及变更管理机制、制度与流程,用于承担技术管理工作及日常运维保障。存储管理规模大、厂商多样化、设备数量、版本、类型众多、存储资源管理日趋复杂;由于设备数量众多,硬盘、电池、电源、控制器、光模块、光纤线路等故障量也会相对增多,日常保障设备可靠性存在挑战,同时也产生了很多简单且重复的运维流程工作。构建存储网络可视化资源图谱,实时监控存储设备物理部件运行状态,不仅限于硬盘、电源、控制器等重要部件,还要重点关注存储网络光纤链路质量、链路抖动、模块光功率衰减、链路失效和潜在的设备故障隐患等问题,收集故障日志研究分析,更精准的储备备品备件,提高维护效率,节约本地仓储压力。同时,依托先进信息技术手段的虚拟劳动力,根据预先设定的程序、操作指令,实现业务流程由机器人自动处理故障引发的工单流程和繁复的人工操作。

二、传统环境的存储运维现状是什么样的

1)运维制度:根据《中华人民共和国银行业监督管理办法》《中华人民共和国商业银行法》制定规范化、标准化的信息技术服务平台,结合银行业ITIL最佳实践来指导IT运维流程,通过服务台、事件管理、变更管理等业务流程对故障事件进行处理,正确报告进展情况,配合运维人员解决故障事件。

2)运维架构:通过一体化的运维监控平台,运维部门往往是第一时间接收到故障告警的,告警事件会以短信和工单的方式提交到设备运维人员,运维人员会根据监控平台中告警设备的故障类型、备件类型、数据中心位置等一系列信息在IT服务管理平台中提交工单,等待审批,审批通过后方可联系设备厂商进行故障备件更换维修。

3)运维范围:包括存储、光纤交换机、服务器等多厂商、多型号、多配置的硬件设备;处理逻辑上的、物理上的各类突发告警事件;根据相应故障事件发起故障处理流程,跟踪流程,解决故障。

4)运维技能:能准确识别并解析各厂商、各型号、各配置硬件设备的常规告警事件,熟练掌握各类型故障处理流程。传统环境存储运维流程如图4所示。

360截图16251112669372.png

图4传统环境存储运维流程

通过技术手段实现运维监控自动化,制度流程提请自动化一体化运维平台结合RPA技术和移动运维理念实现自动化运维。

1.运维平台智能化

作为智能化的运维平台,不仅具备传统运维平台大屏展示、配置管理、告警转发等基础功能,还要具备故障关联分析、关键阈值动态调整、量化指标趋势预测和故障预测分析等高阶功能。通过收集硬件故障计数并量化成故障趋势图判断目标设备的亚健康状态,在故障发生前提前处理,防患于未然。例如:SAN交换机端口或服务器HBA卡端口光模块存在自然劣化现象(如图8),从运维监控角度讲,就是通过sfpshow命令检索到的接收或发送光功率的数值会发生缓慢的下降,下面是观察到的几种变化曲线(如图5-图7所示):

360截图16251112669372.png

图5曲线一

360截图16251112669372.png

图6曲线二

360截图16251112669372.png

图7曲线三

360截图16251112669372.png

图8根据光衰判断端口健康状况

针对告警信息的事件收集,分析判断存储链路状态,排除由于日常维护导致的报警噪音,如图9。

360截图16251112669372.png

图9分析交换机间端口状态判断服务器端状况排除端口问题

2.巡检维护自动化

使用RPA对IT服务管理平台故障硬件更换流程进行编排录制,通过识别硬件告警平台告警信息,解析故障类别、编排提单流程,达到定时执行全天运行,自动处理释放人力,可回滚可追溯且准确无误的效果。全线自动化运维管理如图10所示。

360截图16251112669372.png

图10全线自动化运维管理

3.应急处置移动化

最令人头疼的是故障问题发生在非工作时段,故障处理效率会随之下降,使用移动化处理模式可以在不登录终端设备的情况下快速处理问题。存储交换机端口出现误码往往伴随着业务系统出现交易超时,以下是在移动端处理端口中断的过程(图11-图13):

360截图16251112669372.png

图11短信告警信息

360截图16251112669372.png

图12移动平台告警信息&系统拓扑

360截图16251112669372.png

图13移动平台停止端口

四、结语

全线自动化运维管理依托于传统运维环境的基础之上,所有的故障预测、流程编排、移动化办公都离不开一个可靠安心的运维底座,只有夯实IT基础设施环境,提供准确的数据和清晰的运维架构,打通接口,联调各个工具,才能转变传统的运维模式。

结束语

上述两个案例通过打造存储智能运维平台,可以让企业在存储故障处理流程自动化、巡检维护自动化、运维平台智能化、应急处置移动化等四个方面有很大帮助,大大提升运维故障处置效率,以此转变传统的存储运维模式,实现存储运维的智能化、自动化转型。

THEEND

最新评论(评论仅代表用户观点)

更多
暂无评论