智能时代已来,数据中心基础设施管理是否将走向无人化?

2020-01-15 09:54:57 文/今日头条 作者/ 华为企业业务 数据中心

数据中心基础设施失效故障中,约有80%的故障存在人为因素。而在引入人工智能技术之后,数据中心运维则不再受限于人的因素,可以采用更加高效和可靠的措施来提升运维的质量与效率,逐步演进到无人值守的模式。

自从2016年AlphaGo打败李世石之后,人工智能已经成为各大企业争夺的科技高地,而无人驾驶、人脸支付、无人超市等AI应用层出不究,正在改变我们的日常工作与生活。数据中心作为人工智能产业链的重要环节,基础设施运维仍然主要依靠经验丰富的运维团队与标准固化的运维流程来支撑,这需要消耗大量的人力与物力来保障数据中心的业务可用性。那么,随着人工智能技术的应用与普及,数据中心基础设施运维是否可以实现少人化、无人化,大幅提升人均运维效率,更好的支撑IT业务的发展?

一、无人运维全新重构现有的运维模式

在传统模式下,数据中心运维离不开人,但人也是最大的安全隐患。根据行业调研结果,数据中心基础设施失效故障中,约有80%的故障存在人为因素。而在引入人工智能技术之后,数据中心运维则不再受限于人的因素,可以采用更加高效和可靠的措施来提升运维的质量与效率,逐步演进到无人值守的模式。

大幅简化日常巡检工作

数据中心运维工作中,50%的人力消耗在日常巡检工作中。但当前巡检多依赖于运维人员的眼看耳听,巡检质量难以保证。华为创新性提出了AI无人巡检方案,采用远程抄表、图像识别、声音识别等多种技术,让90%的人工巡检内容转变成自动化、远程无人处理,大幅降低巡检人力成本,提高了巡检质量。以声音故障(压缩机故障、UPS风机异响等)为例:华为采用大数据技术建立了设备异响的数字化模型,明确了这种异常情况的特征值;然后通过遍布在数据中心内的声音传感器,实时采集设备运行声音,通过降噪处理、提取并对比特征值,从而精准识别设备异响,并智能给出可能的故障原因。

提前预警实现预测性维护

数据中心运维的核心目标是保障设备在全生命周期的正常运行。传统的运维模式主要侧重于事后的应急维修、事前的预防式维护,而结合人工智能技术,我们可以基于设备失效模式与历史运行数据,精准评估设备健康度,提前识别设备异常。华为iPower解决方案,数据中心供配电全链路的可视可管,从而实现预测性维护,保障了数据中心供配电系统安全性。例如针对因螺丝松动而引发的母排温度过高、断路器烧毁这一运维问题,华为采用DNN算法生成母排温度预测模型,可以根据温度变化曲线,在达到高温告警阀值之前就提前预警,给出预警位置与处理建议。借助iPower解决方案的设备预警功能,设备维护工作可以从周期性维护工作转变成按需进行,大幅降低数据中心运维工作。

注:基于铜排温度预测模型(100%负载率)

智能协同降低数据中心能耗

在数据中心全生命周期成本中,电费支出占比可达到60%。为了降低数据中心的PUE,传统运维方式是由高级别的暖通运维专家基于自己从业经验来进行调节,优化结果难以保证。华为采用人工智能技术,推出了iCooling解决方案,实现数据中心系统级能效优化,实测可以降低数据中心PUE约8~15%。

二、无人运维需要数字化、智能化的设备支撑

人工智能在数据中心运维中的落地,离不开强大的AI算力来支撑。华为的无人运维解决方案集成了AI智能控制器,通过内置昇腾310 AI模块来可以提供强大算力,确保AI运维的准确性、实时性。此外,华为的FusionPower产品采用智能化部件,可以精准识别各个关键部件运行情况,提前识别设备异常并生成预警,支撑数据中心的无人运维。

三、迭代演进可以更好的保障无人运维的落地

在向无人运维的演进过程中,数据中心运营者可以将整个过程划分成许多个较小的任务,有些任务可以由人来完成,有些任务交给机器来完成,借助AI技术让人与机器更好的协同。通过这种方法,让运维团队逐步了解与熟悉人工智能技术,增强对人工智能应用效果的信心。

华为结合自己20+年超过200个数据中心运维经验与行业领先的AI无人运维技术,推出了数据中心运维使能服务,并在解决方案中集成了AI智能控制器,通过内置昇腾310 AI模块来可以提供强大算力,确保AI运维的准确性、实时性,帮助数据中心运营者实现从手工运维向数字运维、无人运维的平滑演进。

免责声明:凡注明为其它来源的信息均转自其它平台,由网友自主投稿和发布、编辑整理上传,对此类作品本站仅提供交流平台,不为其版权负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。如果您发现网站上有侵犯您的知识产权的作品,请与我们取得联系,我们会及时修改或删除。联系邮箱:leixiao@infoobs.com