网络问题导致更多的数据中心中断

　　断电是数据中心中断的常见原因，但它们不是唯一的罪魁祸首。随着企业计算环境变得越来越复杂，IT系统和网络故障导致大量数据中心宕机。

　　Uptime Institute一直在研究公开报道停机情况，以追踪导致意外停机的原因。在过去三年中，该公司从传统媒体或社交媒体上报道的162起中断中筛选了部分信息。在此期间，可用数据量稳步攀升;研究人员收集了2016年27次停电，2017年57次停电以及2018年78次停电的数据。

　　Uptime Institute的研究执行董事Andy Lawrence表示，“公共服务中断越来越频繁地成为新闻。”

　　Lawrence表示，“几乎每天都在世界各地发生大规模停机，这并不一定意味着中断的数量在急剧增加，但停机时间正在获得更多的关注。”他说。

　　来自Uptime Institute的研究的一个重要发现：电源在整体故障中的影响较小，而网络和IT系统则更为牵连。

　　这种转变的一个原因是，电力系统的运行比过去更加可靠，这减少了本地数据中心内部的电力故障数量。

　　在过去二十年中，科技行业一直专注于设计电力系统，使IT资产能够在电力系统出现故障或故障的情况下继续运行。Uptime Institute首席技术官Chris Brown表示，“供应双线IT设备的2N配电系统的出现，使得IT系统能够通过一系列单一事件继续运行。”

　　与此同时，日益复杂的IT环境导致更多的IT和网络相关问题。“现在数据分布在多个地方，其中一些关键依赖与网络、应用程序(架构)的方式以及数据库复制的方式。这是一个非常复杂的系统，今天扰乱该系统的可能性比过去几年要少。”Uptime Institute负责IT优化和战略的副总裁Todd Traver说。

　　评估数据中心中断的严重程度

　　为了区分可能导致业务瘫痪的停机和仅仅造成不便的中断，Uptime Institute已经提出了规模。Lawrence说，评级系统允许研究人员了解模式如何随时间变化。Uptime Institute的规模有五个层次：

　　●1级是可以忽略不计的停机。中断是可记录的，但对服务的影响很小或没有明显影响，也没有服务中断。

　　●2级的特点是最小的服务中断。服务中断，但对用户、客户或声誉的影响微乎其微。

　　●3级是业务重要的服务中断。它涉及客户或用户服务中断，大多数是有限的范围、持续时间或影响。对经济的影响很小，甚至没有。会产生一些声誉或合规方面的影响。

　　●4级是严重的业务或服务中断。涉及服务或操作的中断。其中包括一些财务损失、违规行为，声誉损害和可能的安全问题，客户损失是可能的。

　　●5级是关键业务或任务停机，涉及服务或运营的重大破坏。可能存在巨大的财务损失、安全问题、合规性违规、客户损失和声誉受损。

　　当Uptime Institute在三年期间检查所有公开报告的数据中心中断(级别1到5)时，IT系统和网络问题超出了电源作为主要原因(见图)。

　　当比较逐年的原因时，这种趋势尤其明显。2017年，28%的停电事故的罪魁祸首是电力。在接下来的一年中，仅有11%的断电被列为主要原因。与IT系统相关的故障保持相当一致;在2017年和2018年分别有32%和35%的故障是由它们引起的。网络中断的主要原因显著增加:2017年19%的网络中断归咎于网络，而2018年这一比例为32%。

　　“这是事物之间的相互联系。这就是为什么网络中断的大幅增加会导致中断。”“这些东西不是通过一个或两个站点连接的，而是通过三个或四个或更多站点连接的。网络在“IT弹性”中扮演着越来越重要的角色。

　　此外，随着更多IT资源被移交给服务提供商，并且不再受使用它们的企业直接控制，IT将增加管理和操作复杂性。

　　深入研究数据中心停机时间

　　Uptime Institute深入研究了数据中心中断的具体原因。在网络方面，中断的常见原因包括：

　　●光纤在数据中心外部切断，路由选择不足。

　　●主交换机间歇性故障，未部署辅助路由器。

　　●主交换机故障，没有备份。

　　●维护期间的流量配置不正确。

　　●路由器和软件定义的网络配置错误。

　　●对非备份单个组件(如交换机和路由器)断电。

　　错误配置的路由器和软件定义的网络是“常见的网络问题。他们应该通过测试检测到。”Traver说。

　　Traver说，当谈到光纤切割时，公司往往不知道他们有单点故障。他们可能有两个独立的供应商，但他们不知道，光纤在同一个沟渠中运行。他们没有做出适当的尽职调查来确定这一点。

　　当IT是罪魁祸首时，列举的一些原因包括：

　　●管理不善的升级，缺乏软件级别的测试。

　　●大型磁盘驱动器或存储区域网络的故障和后续数据损坏。这可能是由硬件故障引起的，由于配置或编程错误而加剧。

　　●负载平衡或流量管理系统中的同步或编程错误失败。

　　●错误编程的故障/同步或灾难恢复系统。

　　●对没有备份的单个组件(例如服务器或大型磁盘驱动器)断电。

　　谈到负载均衡/流量管理问题，Lawrence表示，当公司尝试更广泛地分发IT资源时，可能会出现编程错误和同步问题。“减少对单一网站的依赖通常是更广泛战略的一部分;就像你挤压气球一样，问题突然出现在其他地方。”

　　Traver补充说，当公司“没有真正规划所有平台的应用程序和数据，或者他们没有经常测试它们时，就会出现问题”。

　　当电源成为主要问题时，一些主要的停电原因包括：

　　●雷击，导致断电。备份软件/配置失败。

　　●转换开关出现间歇性故障，导致无法启动发电机，或转移到第二个数据中心。

　　●UPS故障和无法转移到二级系统。

　　●操作错误，关闭或配置错误。

　　●公用电力损失以及发电机或UPS的后续故障。

　　●电涌引起的IT设备损坏。

　　这些都是数据中心的工程师们几十年来一直在努力解决的问题——如何围绕这些问题进行设计，如何用他们的设计减轻压力。

　　Traver说，总的来说，公司需要更加关注数据中心的弹性。“了解您的系统是如何设计的。完全理解-所有相互依赖。并且也知道它是如何失败的，并为失败做好计划。这是我认为缺少的那块。”他说。

　　“设备越来越好，管理越来越好，经验越来越丰富。它正在成为一个更成熟的行业。”Lawrence总结道，“但即便如此，断电仍然是一个非常重要和昂贵的问题。”

最新评论（评论仅代表用户观点）

区块链技术对未来世界及数据中心的影响

数据中心，电力告急!

电力、热量和可持续性：2025年重新定义数据中心冷却的五种力量

液浸冷却如何帮助数据中心实现净零排放

精选文章

再获殊荣!超聚变服务器操作系统FusionOS“全速领跑”

专访中兴通讯胡继东 | 沉淀数智底座，引领企业转型新范式

赛迪研究院刘权：用区块链破解政务数据共享开放难题

“全栈创新从可用到好用”2023（第六届）中国信息技术应用创新大会只等你来!

易建超：构筑网络空间的蓝天白云

数字孪生郑州智慧岛城市大脑中心

热点资讯

智能养殖设备提高市场竞争力拓宽增收渠道全维度解析

普元在WAIC 2026汇聚中欧嘉宾：高质量数据集与AI编程双向驱动AI落地

WAIC 2026现场|模力通3.0正式发布：一句话交代一整套交付

WAIC2026现场|文修大模型V5.0与校对通智能体2.0发布探索智能审校全流程交付新范式

14万㎡、5大品牌展同期联动，IOTE 2026深圳物联网展邀你一次看完全产业链

政府工作报告中的“提速和减费，携号转网”是否也适用于物联网？

国外微博“脸书”使用明文储存数亿密码，用户信息安全堪忧