数据中心DCIM典型案例赏析

数据中心观察室
数据中心观察室
实现设备级到系统级运维提升,打破以往烟囱式的建设模式带来的多系统刷屏式报警,用数据关联分析实现故障收敛,由统一事件管理模块进行集中监控,提升监控报警效率,将更多时间留给应急处理。

2345截图20200908083720.png

案例一

案例背景

某供电局以主机房为核心,包含多个同城机房,动力环境监控系统及视频监控系统老旧,监控与管理范围难以覆盖基于资源的管理活动,并存在各系统相互独立缺乏关联协同,且无法满足组织内部三级成熟度的管理要求。

项目需求

对于该供电局而言,期望通过项目化的方式,引入先进的管理系统,在两年的实施周期内,完成数据中心基础设施从监控到管理的融合体系,并有效整合已建设的各子系统,使数据有效进行统一整合;同时,期望通过系统平台的固化手段,有效落实电网内部企业管理标准与制度,构建数据中心运维管理体系。

项目实施

该项目分为两期进行建设,第一期建设主要围绕数据中心内部的监控一体化以及基础资源管理进行,部署实施了包含实时监控、资产管理、容量管理、能效管理模块的DCIM平台,完成各子机房网点现有系统的接入,形成统一化的管理平台。第二期建设主要以运维深化为主,由于涉及管理流程与管理体系,项目实施前新增管理咨询过程,梳理数据中心的管理流程以及角色,并基于此为依据,构建并部署了巡检管理、维保管理、值班管理、工单管理等运维管理模块,同时通过平台的对象化模型,集成了IT监控以及机器人运维。

项目成果与收益

该项目通过两期建设,实现该供电局监控、资源到运维的三位一体的整体管理平台,有效支撑了数据中心基础设施运维的管理要求,并基于平台贯彻落实固化了运维流程与运维操作,实现资源管控与运维管理的可度量、可追溯、可评价的效果。

2345截图20200908083720.png

案例二

案例背景

北京某数据中心园区,因数据中心规模及设备数量指数级扩张,依靠传统的监控和运维管理方式难以满足日益增长的需求。概述如下:

1)各系统独立监控,在ECC需监视十几个监控屏,且单点故障会引发故障刷屏、导致值班人员焦头烂额。

2)能耗管理以物理设备为核心,更多依赖于手抄数据、excel表格进行能耗分析,PUE计算最大颗粒度到月级,不仅耗人耗力而且误差大。

3)容量管理由人工统计、扩容响应慢、新资源分配效率低。

4)运维人员是一种黑盒式、看指示灯的依赖经验的运维方式。

用户需求

用户亟需建立DCIM帮助实现以下几项功能:

1)将数据中心配电、暖通等基础设施工业设备以统一的数据接口标准实现数据采集和传输。

2)通过制定基础设施设备的核心监控指标建设统一的基础设施运行监控系统,实现运行异常数据的精准监控和精准运维,减少人工巡检工作量的同时,提升数据中心的运维安全水平。

3)通过数据监控暖通、配电的全链路设备的运行数据分析,实现数据中心容量清晰可见。

4)实现能耗管理的自动计算和分析,能实时展现数据中心整体PUE,PPUE、CLF、PLF等能耗构成情况。

项目实施

为满足公司数据中心规模不断发展壮大的需求,梳理人、机、平台的分工,重塑工作流程,建立DCIM平台,实现“数据驱动运维”。项目组结合项目实际情况,由专业团队和开发团队分工协作,在2019年通过自研实现移动巡检、运维调度、设备管理、能耗管理等模块的开发。

2345截图20200908083720.png

项目成果

项目成果概括如下:

1)实现设备级到系统级运维提升,打破以往烟囱式的建设模式带来的多系统刷屏式报警,用数据关联分析实现故障收敛,由统一事件管理模块进行集中监控,提升监控报警效率,将更多时间留给应急处理。此外,编写故障报告采用DCIM平台的数字和图表,更加客观的分析故障原因。

2)实现数据中心能耗PUE、电费可见,将月级人工计算PUE到小时级自动计算(效率提升700倍)。能实时显示数据中心PUE、PPUE、CLF、PLF及PUE各项占比,及时发现变化幅度比较大的部分,并采取措施,尽可能精细化管理能耗。

3)实现配电及暖通全链路容量管理。建立从数据中心高压进线/柴发到末端机柜的全链路容量计算、预警、数据分析,协助专业团队化解系统性安全风险,保障生产安全的前提下降低运营成本。

4)实现设备运行数据的可视化,建立超过1200张的设备画像,基本覆盖了数据中心的全部基础设施,加深对设备运行状态和规律的掌握。

项目收益

通过建立DCIM系统,DCIM建设推进了数据中心基础设施环境数字化运维水平,辅助数据中心PUE从2018年的1.58下降到1.36,年节省用电量1400万kWh,节省用电费1000万元,减少碳排放5600吨标准煤。

THEEND

最新评论(评论仅代表用户观点)

更多
暂无评论