“三通两平”看存储

戴尔科技集团
岑广海
采购高端存储应该看什么?看性能?看稳定性?分享一篇来自Dell EMC专家的工作手记,看看采购高端存储需要考虑哪些因素。 在我工作的过程中,经常有客户来寻求存储采购的建议,因为我负责高端存储、非结构化存储的...

采购高端存储应该看什么?看性能?看稳定性?分享一篇来自Dell EMC专家的工作手记,看看采购高端存储需要考虑哪些因素。

在我工作的过程中,经常有客户来寻求存储采购的建议,因为我负责高端存储、非结构化存储的工作,所以我想根据我的经验总结,来具体谈一谈存储的采购。

关于存储采购,我觉得客户首先要对采购的产品有清晰的定位和期望值。

比如拟采购存储产品是为了IT的关键业务系统,还是非关键业务系统;对于要准备采购的存储产品到底有些什么核心要求。因为盲目追求指标,就和买一台山寨手机一样,指标很丰满,现实很骨感。如果是应用在IT关键业务系统,它关系到企业的正常运转,是属于企业的核心生产力,这时候需要考虑的存储产品我认为有三个要点:

第一,可靠性,这是毫无疑问的。因为如果发生了停机,无论计划外,还是计划内,公司的方方面面都会受到不同程度的影响。界定一个存储是否属于关键业务系统,核心在于识别其停机时间是否严重影响生产工作,造成的影响是否范围广、影响大、损失重。

我曾经经历过几个客户,他们要求IT的关键业务系统哪怕是计划内停机,也只允许有限的几个小时。因为每一分钟对他们来说都是很大的经济效益,所以可靠性是第一重要的。

第二,IT关键业务系统需要稳定可预期的性能。这里的性能不是单纯只看一些指标,比如有很高的IOPS、很宽的带宽,而是说性能在满足业务的需要后,不能忽高忽低,要保持稳定可预期的响应。

在真实的混合工作负载里,我们会面对各种状况,有的应用读多写少,有的写多读少,而且读写的数据块大小都是不同的,负载发生的时间也变化不一。所以我们就需要稳定可预期的性能,这就好比以不变应万变。否则的话就像我们使用的手机、电脑一样,运行了一段时间,就会觉得系统越来越慢。在最关键的时候系统不给力,等半天,这是很痛苦、很要命的,直接影响到了我们工作的效率。

第三,业务灵活性。作为IT关键业务系统,还要从全局视角来把握,保存着关键业务系统数据的存储往往不仅仅只是服务于当前的应用,它还需要服务于其他的业务需求。因此存储的灵活性要贯穿整个业务流程。现在这个IT环境里,我们不能单纯要求存储设备能够保存数据、服务单一应用就行了,而是要通盘考虑其他应用对于这些数据的访问要求。这些访问要求,包括传统数据存储领域里的备份、容灾,还包括许多新的增值的应用。在机械磁盘的时代,这种需求受限于机械磁盘的性能,不那么突出;但是在全闪的时代,就会摆到了桌面,成为我们CTO要考虑的问题。

如果是非关键业务系统,对存储的要求可以不那么苛刻,但对IT关键业务系统,可靠性、性能、业务灵活性这三点需要牢牢把控。否则的话,会给我们采购人员、给我们IT管理运维人员带来很大的麻烦,并且这种麻烦不仅仅是给自己带来很多运维的麻烦,还会影响到公司的整个经营工作。

所以我们在购买存储设备的时候,首先要对业务系统有一个合理、准确的定位和期望值,这样的话才能采购出比较合适的存储产品。

有了清晰的期望值,下一步就要对各个厂商的产品进行比较,包括性能、体系架构等。

还是针对IT关键业务系统来谈。我们知道在建筑领域有一个很关键的前期步骤,这个步骤称之为“三通一平”,开始工作前,我要把水通了、电通了、路通了,并且我要把整个施工环境平整,最后才能使得房屋的建设实现高效。

对IT关键业务系统也是,我们需要什么呢?要做好高端存储“三通两平”的准备。

三通,简单说,就是要端到端的路由通达。就像以前的广告词:通则不痛。三通包括大三通和小三通。

首先是“大三通”,也就是前中后三层面要自由通达,前台是指服务器和存储的连接,中台是存储前端端口到后端端口之间,后台是后端端口和存储磁盘之间。

前台的通达多年前高端存储就做得不错了,多路径软件支持各种功能,还包括负载均衡等。虽然前台还有些许不足,但不是主要问题,而且今明年应该能够解决。中台的通达因为包含在存储内部,往往大伙不太清楚,比如在高端存储里,多控制器多CPU中的各个核,需要能够根据负载自由地调度调配,就像马路上一些潮汐路段,能够根据车流量动态地进行调整,这样才能够保证处理能力不会成为瓶颈。而后台呢,后端端口和磁盘之间的协议也要做到没有瓶颈,不会因为一些仲裁机制,导致数据的传输交换效率下降。

所以大三通就是前中后端要有端到端的连贯性,这种连贯性不能卡在某一个点上,否则就会导致我们被卡着脖子一样,路是不通畅的,性能永远得不到很大的提升。

另外还有“小三通”,小三通是每一个模块内部也要充分考虑到访问组合性是否自由通达。所以“三通”就是体系架构和架构里的每一个部件里面要实现通畅。

两平是什么呢?第一个“平”是可靠性的平稳。可靠性的平稳是什么呢?举个例子,可靠性平稳侧重于系统不管在什么环境下,都能够很稳定地运行;不管哪一个部件发生了故障,也能够支撑业务的运行,或者迅速地恢复。比如我们的一个高端存储的用户,有一次机房空调坏了,不少设备都罢工了,可是我们的高端设备还继续工作着,保证了他们的关键业务系统不罢工。这样的例子我们高端存储有许多。

第二个“平”,是上面提到的性能的平稳。存储性能满足我们要求的IOPS、带宽和响应时间,这是基本要求。但是,我们不能只要求在测试时达到这种指标,那其实是某种理想状态。在真实的混合负载环境下,在极端的瞬间负载下,在运行了若干时间后,我们的存储是否还能保证同样的性能呢?是否性能一直是可预期的呢?

现在根据这“三通两平”,在为关键业务采购存储的时候,我们应该首要考虑这五个要点。

第一,多控一体的架构。我们知道中端存储跟高端存储最大的区别就是中端存储通常只是一个双控系统。虽然有的这两控制器都是Active的,但是对于数据的访问来说,其实是主备的架构。它不是真正Active-Active一体的架构。

而高端存储,从体系架构来说,不仅需要多个控制器,而且这些控制器需要是一体的。也就是无论访问哪一个控制器,都能得到同样的访问。这是界定高端存储和中端存储最大的区别。也是打通服务器和存储之间的最主要的环节。并且不仅仅是包括多控一体,还包括前端的多路径软件,能不能够做负载均衡等等,这都是打通前端连通性很关键的要素。

第二,端到端的NVMe支持。今年5月,Dell EMC在戴尔科技集团全球大会推出了端到端NVMe支持的PowerMax,这是非常关键的技术提升。因为这是高端存储性能提升的最后一公里。我们知道高端存储存储有支持负载均衡的多路径软件、多控一体的体系架构、动态调配的内部控制核资源和内存资源,但是后端其实成为了访问性能的瓶颈。

于是高端存储率先引入闪存来替代机械硬盘,以及数据分层技术来提高性能。但是这还不够,随着应用于关键业务系统的存储设备越来越全闪化,后端的存储访问协议对性能的制约变得突出。采用了NVMe,前端到后端整个链路变成了多对多的连接,从而实现数据从服务器到存储介质这一条路径的彻底打通。你可以通过任何一个路径,通达到任何一个地方,性能会得到最大的实现和保证。

第三,全闪存介质。路宽了,还能不能继续采用传统的HDD的介质使用在IT关键业务系统上?这是不可以的。我们原来使用机械硬盘,为了获得足够的性能,需要追求最大的磁盘数的支持,也就是需要很多盘并行访问才能够得到一个足够大的IOPS数。但是现在不一样了,闪存的访问特性没有机械硬盘那么多限制。在高端存储里,今后将会是全闪存介质,这个无论是在全球还是在国内的发展趋势上都可以看到。而且全闪存价格在单位成本上来说,再配合一些先进的技术,跟机械硬盘有足够竞争的价值了。

采用全闪介质以后,存储的读写方式就有了改变的必要。一方面需要提高闪存的访问寿命,另一方面需要提高闪存的利用率。要达到这样的目标,就要针对全闪的读写访问特点,通过一些技术来进一步改进其读写模式,提高它的访问性能。所以在这里面就涉及到第四个点,就是数据消重技术。

为什么需要数据消重?因为数据消重技术可以减少闪存空间的消耗,从而降低数据存储的成本;减少闪存写的次数,从而延长闪存的寿命;可以进一步发展数据的多拷贝应用,从而增加单位数据的利用价值等等。数据消重技术里主要包括数据重删技术,当然还有数据压缩技术等。有了数据消重的考虑,逐渐地我们发现这不是单纯的消重的问题,而是一个整体系统设计的问题,结合了数据消重的技术后,再考虑性能、多拷贝的应用等等多方面的要求,就发现高端存储里的读写模式发生了很大的改变。所以,在高端存储的发展中,数据消重是不可或缺的一个特性。

第五个要点是人工智能。全闪的数据访问和机械硬盘的访问是截然不同的,很贴近内存访问的方式。因此需要人工智能的一些机器学习的算法,来进行数据的自动放置,从而获得最佳的性能,以及最经济的存储组合。

目前的SAS NAND闪盘还不是最快的闪盘,明年将推向市场的最新技术称为存储级内存(SCM)。届时的全闪存储仍然是分层的。因此利用机器学习来进行自动的数据放置,从而实现性能进一步的释放。这也是很关键的。

所以在IT关键业务系统里,首先我们要买高端存储,因为我们要可靠性、要稳定可预期的性能、要考虑到业务的灵活性。另外还要考虑三通两平,三通两平里除了我们已经熟知的多控一体的技术以外,现在我们还要考虑NVMe的支持、全闪存、数据消重和人工智能。

因为上面提到的高端存储发展的综合技术要素,尤其是数据消重特性,现在容量的趋势是全闪存储设备追求的是有效容量(Effective Capacity),而不是可用容量(Usable Capacity),更不是物理容量(Raw Capacity)。采用有效容量,考虑到数据消重以后,从总体上看,会获得更经济、更实惠的存储。

为什么在机械硬盘时代,我们强调可用容量,而在全闪时代,我们需要强调有效容量?因为在使用机械硬盘的时候,数据保留多份,不仅仅是出于多数据拷贝的增值应用的考虑,更是因为不能把访问的压力放在同一份数据上。如果数据只是一份的话,就会把访问压力全部集中在这个机械硬盘上。机械硬盘的IO是有限的,就会导致性能出问题。因此要保留多份物理拷贝,就需要存储支持越多的盘越好。这样的环境需要强调的不是有效容量,而是可用容量。

但全闪不一样,全闪首先是介质性能提升了。其次是除了介质性能提升,前端控制器的Cache也扩大了,可以保留更多的在访问数据在内存里。因此数据的访问压力不会受限于机械硬盘有限的性能了。于是高端存储就不追求很多的盘数,反而追求到底怎么来提高数据被访问的效率。比如PowerMax 2000最大插盘数有多少?没有多少的,不到100片,但是有效容量是多少呢?1PBe,远可以满足许多用户的容量需求。这跟有的中端上千片的插盘数比起来,是完全不一样的。颇有返朴归真的感觉。

总体上,关于存储采购我认为要把握一条准则,就是要改变我们过去采购存储产品的思路,更加回归到IT的关键业务系统所追求的本质上面来。

THEEND

最新评论(评论仅代表用户观点)

更多
暂无评论