Visa Europe公司对其数据中心遭遇破坏性崩溃进行评估和分析

UPS应用网
Harris编辑
日前据悉,信用卡发行商Visa公司的数据中心本月早些时候遭遇停机,那么人们还记得2011年臭名昭著的为期四天的停电?那么发生了什么?以及Visa公司为避免再次停机采取了什么措施? Visa公司欧洲分公司的首席执行官...

日前据悉,信用卡发行商Visa公司的数据中心本月早些时候遭遇停机,那么人们还记得2011年臭名昭著的为期四天的停电?那么发生了什么?以及Visa公司为避免再次停机采取了什么措施?

Visa公司欧洲分公司的首席执行官CharlotteHogg表示,由于数据中心的交换机出现故障,6月早些时候欧洲各地的数百万客户受到影响,导致信用卡业务处理中断了10小时。

作为对英国财政部要求自行解释的要求,Hogg向英国国会议员跨党派委员会发出了一封详细信函中的数据中心问题。

停电发生在6月1日,停机事件发生在英国夏令时14:35,并于00:45结束。英国数据中心运营团队意识到处理系统功能已经存在“部分退化”,据说已经制定了相应的协议来处理这个问题。

其第一步是召开技术响应团队评估会议。随后,这一问题升级为危机管理协议,并就此问题发布了媒体声明。

该公司在英国经营着两个数据中心,其中任何一个据称都能够在欧洲处理Visa公司的100%交易。在“正常情况下”,系统是同步的,任何一个数据中心停电,另一个可以立即接管。Hogg说,每个中心都内置了设备和控制的多种备份形式。

每个数据中心都配置了两台核心交换机,一台主要的交换机和一台次要的交换机。如果主要交换机发生故障,在“正常运行”状态下,备用交换机将接管。在这种情况下,主要数据中心交换机中的某个组件出现“非常罕见的部分故障”,从而导致备份交换机无法启动。

因此,该公司花费比通常在主要数据中心隔离系统更长的时间。主要数据中心的故障系统继续尝试与辅助数据中心同步消息。这在辅助数据中心创建了消息积压,这反过来又减缓了该站点处理传入事务的能力。

数据中心工作人员采取了一些关键措施来尝试缓解问题,其中包括关闭主站点的软件应用程序,并通过人工和自动方式清理辅助数据中心的消息积压。

直到19:10左右才完全停用导致主要数据中心事务失败的系统。到那时,辅助数据中心已经开始正常处理几乎所有的交易。到20:15,其影响“基本解决”,6月2凌晨00:45处理水平正常。

事件发生时,整个系统都没有中断。相反,在整个中断期间,未能处理的交易百分比“波动”。

Hogg说:“我们尚不清楚为什么交换机在当时出现故障,但我们正在与]制造商合作对交换机进行取证分析。”

她补充说:“根据他们的初步调查结果,我们被告知这是非常罕见的失败。制造商向我们提供了有关软件的建议,用于在发生类似的故障时自动监控和关闭交换机。而在运行时,该计划将不断审查交换机中的关键组件,以跟踪其可用性。如果检测到相同的错误,程序将自动接收组件或切换操作。”

她表示,Visa公司还在内部开展工作、开发和安装其他新功能,以便以“更加自动化和及时的方式”将处理环境中的故障组件隔离并删除。

该公司还正在对其测试和运营以及事件响应流程进行审查。Visa公司已将其欧洲处理迁移至其全球处理系统VisaNet。此迁移计划于2018年底前完成。VisaNet基于与欧洲系统不同的技术架构,拥有多个数据中心并服务于多个地区。

VisaNet有四个双活图像协同工作,与欧洲的系统相比,它具有更大的容量和规模。

Hogg说:“VisaNet在检测和恢复6月1日影响欧洲系统的部分故障时具有更强的适应能力。”

Hogg表示,“它可以用一个命令隔离和删除失败的组件,只需几分钟时间即可从处理环境中删除故障组件。通过这样做,我们在其他数据中心的操作系统可以忽略故障系统并继续无缝运行。”

Hogg证实,6月1日的停机事件与这次移徙没有任何关系,而其移徙事件自2月份以来一直在进行。

在很多方面,Visa公司欧洲分公司运营中断在2011年臭名昭着的为期四天的全球黑莓智能手机中断事件中发生,当英国数据中心的网络交换机出现故障,并且备份系统未能完全启动时,由于狭窄设计的网络陷入瘫痪,导致日志堵塞。当然,黑莓手机当时并没有从事件中恢复过来,这加速了用户向iPhone和Android设备的迁移。

THEEND

最新评论(评论仅代表用户观点)

更多
暂无评论