怎样打造绿色可持续的数据中心运营体系?

UPS应用
程小丹
现如今, 数据中心已成为当今全球经济发展的新基石。如今只要稍有能力的企业都在建设属于自己的数据中心,随着绿色可持续发展政策的颁布,很多企业更是将打造可持续的数据中心运营体系作为企业发展的终极目标。...

现如今, 数据中心已成为当今全球经济发展的新基石。如今只要稍有能力的企业都在建设属于自己的数据中心,随着绿色可持续发展政策的颁布,很多企业更是将打造可持续的数据中心运营体系作为企业发展的终极目标。

保证数据中心持续运行,设计、建造和运维是同等重要的。从运维管理角度来看,设备的运维和人员的管理是互补的两个方面,构成一个完整的流程。

作为数据中心的管理者,最终的目标是安全和高效地可持续运营。安全又是首先重要的工作,如果机房出事,没有安全,就谈不上能够持续下去。然后再谈高效和绿色可持续的概念。这是整个大体系的思路。

那么,最让运维人员睡不着觉的问题有哪些?请见图1。

从图1中可知,可用性、高素质运维人员的匮乏和没有良好的管理流程占据令人头痛问题的前三位。

图2给出了某数据中心在2016~2017年发生故障的统计。从图中可以看出,在2016年,数据中心应用中断的故障占比为13%,而在2017年上升为18%。造成故障及事件的原因(有多种原因同时存在的情况),主要有设计和建设过程中的问题(占49%)、运维体系流程不完善(占44%)、人员资质不够(占37%)和人员数量不够(占25%),除设计和建造过程中的问题以外,其他三个方面均来自运维管理,可见运维管理对于数据中心的高可靠性和高可用性是十分重要的。

在数据中心设计和建造过程中,设计的验证和建造的过程验证固然是重要的,同时,在投产之前还要把运维体系、人才培训等工作做好。

设计验证

从形式来讲,设计验证是聘请有资质的设计验证单位和专家对数据中心的设计图纸进行评审,这是建造之前必须要经历的验证过程。

在设计验证过程中,最为关注的是各系统中的单点故障点。图3给出了一个单点故障点的实例。图中表示,由一台ATS双电源切换箱为四台精密空调放射性供电,双电源配电箱的电源来自互为冗余的A/B路电源。此时,双电源切换箱的ATS就成为了单点故障点。一旦ATS故障或维修,全部空调将断电。

为了消除这个单点故障点,设计验证应给出克服故障的解决方案。图4便是克服图3所示的单点故障点的解决方案。

建造验证

建造验证也叫测试验证。在设计验证通过后,按设计图纸完成数据中心的建造,下一项便是建造验证。在设计验证过程中,要验证各系统和各子系统是否存在单点故障点,并提出消除单点故障点的解决方案。而在建造验证阶段,是要在各个系统和子系统中模拟任何一个单点故障,检验保障系统能否保障数据中心的正常运行,与此同时,也验证了运维体系运转是否正常、运维管理人员的资质和数量是否达到要求。

图5是建造验证的一个现场场景。建造验证是一项复杂和技术含量很高的阶段,包括验证数据中心各系统,如供配电、制冷、监控等诸多系统的故障模拟和保障功能。图6~图11给出了部分建造验证(测试验证)现场场景。

对于建造验证的重要性,有的用户不甚理解,甚至不愿意在建造验证方面给予特别地投入。这种认识上的误区必须克服。

运维体系

运维包括保养、维修和运行三个方面(见图12)。

这里必须指出,要充分做好设计验证和建造验证两个阶段的工作,否则,留下的隐患将给后期的运维造成很多困难和难以消除的风险。

在构建运维体系时,参照国内外的先进做法,首先要清晰经营运维管理范畴。从图13所示的数据中心运维管理体系可以看出,管理的内容多多,但安全管理是重中之重,其中人身安全更应排在第一位,然后是设备的安全。只有保证了人身和设备的安全,才能有运维体系各个流程的正常运行。

在运维体系建立过程中,其实有很大比例的、普遍的问题是人员,我们从调查的角度结果来看说,很多人觉得运维人员很重要,作为运维管理人有同样的感受。运维体系建立过程中的差距,其原因与培训的时间、培训的手段都有关系。没有系统的培训,或者培训计划没有办法执行到位,是一个关键的缺陷原因。为什么没有办法执行到位呢?主要的原因是运维人员不够用,所以就没有富余的时间参加培训,对于大部分数据中心来说,钱还不是问题。安排足够的培训时间和有针对性的培训计划,这是管理层要予以重视的问题。图14表明了运维人员的配置、资质和培训的重要性。

风险评估

风险评估,这个话题近两年提得比较多,主要来自金融行业,对金融行业来说,数据中心非常重要。金融行业最近出事比较多,所以银监会对此提出了要求每年至少开展一次安全评估。

数据中心无非存在三个风险,一个是业务中断,数据丢失了,前段时间也有数据丢失的案例,客户数据找不到了。还有火灾,火灾往往是社会影响更大。所以银监会每年要开做两次安全评估,现在很多银行基本上一年或两年都会做安全评估。,第三,国家非常重视信息安全。托管,随着现在越来越多的客户要求把数据中心进行托管,这方面也会要求现场评估。,包括我们自己在运行的机房,怎么评估它,这也是一个很重要的事情。

在做风险评估时,要做到360度的评估。从基础架构上分析,去看一个机房的时候,首先得看一下架构,比较容易出事的潜在的点在什么地方?另外在设施设备的评估时,要到现场看看周边有没有什么危险,包括建筑和设备的情况。

Uptime2013年给出了一个挽救的模型(SavesbyCategory),那哪什么叫挽救呢?有一个事件,没有演变成一个故障事故,从事件变成故障事故的期间,要采取措施使其不要变成故障事故,这段期间就是Saves。一个异常情况定义为一个异常事件,故障事故就是应用中断。根据Uptime的统计数据,若采用双路电源供电,可以挽救9%的事件;设备冗余可以挽救9%的事件;说明50%的事件通过基础架构来挽救,使其不变成故障事故。而另外50%的事件要通过运维人员干预(29%)、预防性维护(19%)和预测性维护(2%)来挽救,使其不变成故障事故。Uptime2013年给出的挽救的模型见图15。

另外,还需对机房环境和机房设施做风险评估。图16和图17分别给出了部分机房环境风险和部分机房设施风险。

结束语

END

上述的设计验证、建造验证、运维体系建立和风险评估是中科仙络的服务项目,近年来,服务过京东、万达等知名客户,也为华为的机房也做过验证测试,目前主要做Uptime的认证,后期还要做lead LEED认证。不久前微软宣布,微软的数据中心都要进行lead LEED认证。大家知道Uptime是可用性的标准,不久的将来,lead LEED认证也会得到比较多的认同。

(原标题:打造可持续的数据中心运营体系)

THEEND