数据中心测试验证的前世今生

交流科技圈搜狐
数据中心建设+
数据中心从规划设计到建造投产,是一个专业度很高而且漫长的过程,其中包括大量设备和部件的选型安装,以及配电、暖通、监控、消防等多个子系统之间的紧密配合,才能实现数据中心正常运转。

数据中心风险管理

现代数据中心建造推崇“以终为始”的观点作为方法论,以人为出发点的构思,性能式的思考逻辑,考虑人为导向的风险管理数据中心,基于建造使用性能的评估系统进行测试验证,从而确保生命财产安全,也是企业在考虑员工生命安全为前提之下的高可用性、高可靠性、高质量服务的数据中心基础建设评估系统。

一、前言

数据中心从规划设计到建造投产,是一个专业度很高而且漫长的过程,其中包括大量设备和部件的选型安装,以及配电、暖通、监控、消防等多个子系统之间的紧密配合,才能实现数据中心正常运转。

测试验证作为一个系统性检验数据中心的重要环节,早期在国内并不被重视,原因是多方面的。

国内传统建设项目实施理念是“以始为终”,从设计角度出发,根据设计图纸建设施工,在过程中结合现场情况深化实施方案,遇到问题进行变更,以验收为结论,最终往往会与整体初衷出现偏差;

现代数据中心建造推崇“以终为始”的观点作为方法论,以人为出发点的构思,性能式的思考逻辑,考虑人为导向的风险管理数据中心,基于建造使用性能的评估系统进行测试验证,从而确保生命财产安全,也是企业在考虑员工生命安全为前提之下的高可用性、高可靠性、高质量服务的数据中心基础建设评估系统。

两种不同观念的差别,产生了对测试验证不同的重视程度,也是测试验证在国内数据中心全生命周期中没有作为必要选项的原因之一。

测试验证是一项造价不菲的服务工程,不仅需要投入专业的人员,各种精密的仪器设备,还要消耗大量的自然能源。根据数据中心规模的不同,进行一项完整的测试验证,往往需要花费数十万甚至数百万元,对于捉襟见肘的项目预算,是不可承受之痛。

测试验证时间节点位于建设末期,建设工期如果发生延迟,投产迫在眉睫,留给用户的时间已经不多了。是继续完善收尾工作?还是做一次彻底的验证,把更多的隐患消除在开始阶段?对于每一个决策者都是一个不太容易的选择题。

以上各种原因,让数据中心建设者很难下决心把测试验证这件事进行到底,放弃了唯一一次全面模拟检验数据中心运行状况的宝贵机会。

出来混,迟早要还的。当一个没有进行过完整测试的数据中心走上了运营之路,等待它的必然是悲剧人生,而且是无限续悲的那种。

二、业务运营初期,设备处于磨合期状态

运维人员对设备操作还没有达到厂商工程师的熟练程度,面对一些调试中没有出现过的状况束手无策,唯一能做的就是挂起等待。好在这个阶段的业务量不是很多,还有充足的冗余设备可以调用,暂缓一下,可以渡过难关。

三、业务量的不断上升,其重要性也在不断递进

数据中心的关键设备承担的负载也越来越多,轻载工况中没有出现的问题开始显现:虚接发热、开关偷跳、热岛效应、错误报警……运维人员在这个时期如履薄冰。

四、难经风雨的阶段

随着时间的推移,虽然一个初步稳定运行的数据中心终于步入正轨,但凡有风吹草动,仍然如临大敌,更不用说停电这类大事件了。在市电终止的情况下,从电气系统、暖通系统到监控系统需要一系列的切换和响应措施,来保证数据中心IT负载的运行不被中断。但是,由于各系统间没有进行过联合调试,从软件逻辑到机械动作很难做到万无一失,数据中心终于花光了所有运气,最后的结果就是运行业务被迫停止。

人生就是一个大舞台,每一天都是现场直播,没有彩排,没有导演,没有重来。如果再给数据中心一次机会,我相信它还是希望从局部到整体做一次全面的彩排——测试验证。图1示出了一个数据中心的生命周期示意图,从中可以看出数据中心的一些端倪。

2345截图20211028093243.png

近年,在信息技术和大数据等趋势的推动下,信息数据需求不断增长,企业对于数据中心的认识、构建和规划也正在发生转变。数据中心作为互联网和云计算服务的重要基础设施,面临日益严苛的运行条件要求,对运维管理也提出新的课题。

测试验证作为数据中心建设与运维的桥梁,可以为数据中心的可靠运行提供一下帮助。

1)通过检验数据中心的可用性,降低初始故障率,提高系统效率;通过模拟负载运行,记录各种工况数据,为运维策略提供有效依据;

2)运维团队参与多种演练场景,提高实战能力,减少人为操作故障;

3)通过完整的检验,获得系统性优化的可操作运维方案,来保证数据中心平稳交付,最终实现数据中心稳定持续的;

要对一个数据中心进行全方位的测试验证不是一件容易的事,比一场说走就走的旅行难度要大很多。同时,对于初次建设数据中心的用户,可能也并不完全理解测试验证的流程和重点,所以我们先讲讲测试验证的起源与发展。

我国早期的数据中心是从信息机房演变而来,当时受业务量所限,机房规模以几十台机柜居多,负载功率不高,一套中型UPS并机系统完全可以提供冗余不间断供电。没有大量的负载产生热量,制冷系统也简单一些,几台风冷精密空调组成N+1配置,小风一吹,如三月乍暖还寒。

如此简单规模的信息机房,在建设过程中经过集成公司和厂商工程师的安装调试,通过对设备主要参数性能的检测验收,基本可以实现快速投产。在运行阶段,即使出现一些小故障,也能迅速调整解决,不会造成大范围的业务影响。因为当时还没有专业的数据中心运维管理,这个时期的验收基本是以厂商为主导,通过简单仪器测量,核校参数,实现预计功能,皆大欢喜。那些年,在现场配备FLUKE仪表的安装工程师,已经是很专业的体现。

经过多年的发展,信息建设规模不断扩大,分布式信息机房逐渐整合为中大型数据中心,正在向超大规模数据中心迈进。如今,上万平方米的数据中心成为新建主流,10兆瓦级的IT负载量已不鲜见。测试验证以一项必要的专业咨询服务工程出现在数据中心行业领域。

大型数据中心功率密度高,发热量集中,如果没有得天独厚的自然冷却条件,传统风冷空调系统已经不能满足散热需求,大量的水冷系统开始应用到数据中心。运行中的数据中心看似平淡无奇,实则暗流涌动,电路中的电流,管道中的水流,各种信号的交互,协奏出一曲科技版的冰与火之歌。同时,为保证数据中心持续运行,多种冗余和容错架构也作为数据中心电力和暖通等系统的必要配置出现在设计蓝图中。随着市场竞争日益白热化,设备厂商不断改进工艺,降低成本,为博得一席之地苦苦厮杀。在这过程中,良莠不齐的产品质量也困扰着数据中心建设者。

五、如何实现识别风险、排除隐患的目的?

这就需要选择专业的数据中心机电顾问公司,依据设计相关标准、项目需求,由具有设计经验的专家对数据中心竣工图纸进行审核,并由运维专家和设计专家根据项目的实际情况制定测试方案。测试方案中包括基础设施的基本测试,以及针对实际运行可能出现的故障进行的模拟测试。

测试验证服务商提供满足数据中心所有机房单元IT满载运转所需的模拟负载,全面验证电气系统、空调暖通系统、消防及智能化系统的设备功能与性能;通过对多种复杂场景的模拟,验证数据中心是否达到设计等级要求,并完全满足未来运维需要。

测试验证由具备丰富测试经验的专业测试团队完成,配备经过国家专业机构校准的检测设备仪器,制定详细的测试计划、实施方案与安全保障体系,确保在测试规划准备、设备运输与安装调试、现场测试组织安排、现场施工安全保障、技术难点分析、测试报告的编写以及项目质量管理控制等环节达到数据中心的技术征询要求。

通过国内外专业的数据中心认证机构,结合认证规范进行测试验证,通过监督审核的方法,对数据中心基础设施做出等级评估,更加量化的体现数据中心可用性和可靠性,也是现在越来越多的数据中心交付的必经之路。

总结:经过这些年来的完善与发展,数据中心通过严谨全面的测试验证,输出的不仅仅是全方位的运行数据和针对性的操作流程,更重要的是高效衔接运维体系,为运维阶段应对各种突发场景提供了的坚实理论依据,并对优化数据中心能效提供了指导方向。

(来源:《数据中心建设+》杂志)

THEEND

最新评论(评论仅代表用户观点)

更多
暂无评论