可用性(Availability)是指软件系统在一段给定时间内正常工作的时间占总时间的比重,通常用百分比来衡量。在传统的数据中心中,影响服务可用性的因素有服务器异常宕机、服务被攻击、操作系统崩溃、软件崩溃、停电、网络中断等。数据中心管理员需要采用冗余和灾难备份等方式来保证服务的可用性。然而,这些冗余或者灾难备份系统的引入又带来了新的问题,比如冗余备份带来副本一致性问题,以及更高的采购和管理开销。软、硬件设备和系统自身出现问题是不可能完全避免的,云计算高可用性的本质是通过技术创新,保证即使软、硬件出现问题服务仍然可用,比如虚拟化技术提供的快速部署、虚拟机实时迁移能力,都将云计算环境的可用性提到了一个新的高度。
云环境能够在最大程度上减少资源的不可用对业务系统的影响,打造具有高可用性的计算环境。在云计算中,提供对运行时间的保证和服务级别协定已经成为对大多数云计算提供商的标准要求。这些云计算平台大多声称能够提供99.999%的可用性。但实际上,现有的云计算环境也出现过可用性问题,这些问题的出现使得人们对现阶段公有云计算产品和服务的高可用性产生了质疑。
为了提供真正高可用的服务,云计算的提供商正在研究常见故障的分析及预测模型。基于对这些模型的研究,云计算服务商希望能够预测到可能的可用性问题,并通过提前准备副本、提前解决故障、通知用户等手段来避免这些故障的发生,或者减少故障发生带来的损失。