微软于2月29日确认,影响其Azure云计算服务的服务中断是由于Leap Year错误引起的。中断显然是由爱尔兰的一台密钥服务器触发的,该服务器中的证书于2月28日午夜到期。
电子控制文件没有考虑到西方日历每四年增加2月的额外一天。这是简单的人为错误,是计算机错误的最常见原因。
当钟声敲响到午夜时分,事情很快就变得混乱了,云系统的多米诺骨牌效应开始了。由于停机,许多西半球站点和英国政府的G-Cloud CloudStore成为了许多停顿的原因。尽管微软确实在Azure团队博客中报告说该问题“大部分”已得到解决,但微软一直在追踪其步骤以查明到底发生了什么,并且还没有说太多。
“该问题很快被解决,并且确定是由软件错误引起的。 Microsoft Server and Cloud公司副总裁Bill Laing在2月29日的Windows Azure Team Blog中写道。”在进行最终的根本原因分析时,此问题似乎是由于a年的时间计算不正确造成的。”
Microsoft工程师创建了一种解决方法,同时仍在处理影响某些次区域和客户的问题。根据Windows Azure Service Dashboard的数据,到3月1日,几乎所有区域都已备份并开始运行,但美国中南部区域的Windows Azure Compute警报除外。该警报于2月29日上午发布,表明传入流量有问题。
“这是一个经典的计算机科学问题,”云网关提供商Nasuni的首席执行官兼创始人Andres Rodriguez对eWEEK表示。云存储前端Nasuni使用Azure,Amazon S3,Rackspace和其他云存储提供商作为其客户端的目标。
“这是Le年的问题。日期未正确调整。它们没有将the年的日期(2月29日)考虑在内。当事情在爱尔兰开始时,它们的开始时间是格林尼治标准时间零,在2月29日,正疯狂地指着它。可能是疯子似的从那间大厅冒出来的烟。
Rodriguez (如图)提醒eWEEK读者,只有Azure云的计算层崩溃了,Nasuni本身是客户的存储服务部分没有受到影响。Nasuni的存储服务在多个云系统之间是冗余的,因此,如果一个系统出现故障,数据将不会受到影响。
Rodriguez说,实际上,如果IT经理不考虑在至少两个云服务提供商的堆栈上复制其关键业务数据的话,他们可能会被解雇。这正是Azure在2月29日说明的原因。
重温大局的原因
很快,Microsoft将完全恢复并运行,并且在Azure上运行的世界将恢复工作。但是有理由停下来考虑更大的前景。
在这个数字设备疯狂的世界里,我们享受着无数的IT好处。但是我们还需要记住,数据系统中也有很多致命弱点,它们可能直接受到黑客,环境事件,断电,黑子,人为错误的影响。
随着时间的流逝,我们越来越善于发现这些孔并堵塞它们。但是事实是,我们可能永远无法完全解决IT系统固有的全部安全风险的四分之一,因为涉及的变量太多了,而且涉及的人员也很多。
底线很简单,但是很多人花了一些时间来学习它:每个企业都需要像管理所有本地系统一样管理自己的系统?包括所有VPN网络,远程办公室和设备,云。和/或其中的云服务。
长期存储行业分析师安迪·曼恩(Andi Mann)目前是CA Technologies的首席云战略专家,他在2011年4月亚马逊断电后对eWEEK表示: “了解[关于此类事件的第一件事是,这不会改变。适用于2月29日的Microsoft boo-boo。
“云将导致宕机,这是一个基本问题。但是,无论是您自己的基础架构还是云基础架构,您都需要为宕机做好准备。您需要了解风险是什么。这全都与风险管理有关。”
罗德里格斯说:“这些云提供商拥有庞大的数据中心,但是仍然必须编写该庞大数据中心中您自己的应用程序,以处理该数据中心中计算层的崩溃。您不能指望云提供商会这样做那是给你的。”
就像去年Amazon EC2遭受的一次重大故障以及2月29日Le年日那面红脸的微软所遭受的一次重大故障一样,没有什么能比喻云服务的声誉了。入侵系统的坏人可能发生在任何人,云或无云。您会尽力确保获得类似的东西。但是,由于云应用程序提供商的过错而导致的总停机完全是另一回事。