全栈信创技术的存储架构如何设计?

当前云计算、AI、万物互联等新技术快速发展,不断催化着信创存储的变革,只有打通芯片、部件、系统间的各个环节,实现主控芯片、固件算法、系统架构、应用方案的深度融合,真正实现存储技术的根本性变革,才能从底层去满足云、大数据、AI的需求。

本文来自微信公众号“twt企业IT社区”。

在科技发展及地缘政治转变的时代背景下,我国信创产业的发展已刻不容缓,探索IT技术设施层包括计算、存储、网络全面自主可控的同时,存储层面选择高性能、高适应性、高安全性的解决方案必然是信创产业的重要课题。

【栏目主编】赵海某金融系统高级主管:本议题由某金融公司架构师刘艳春、某商业银行存储工程师徐子晨、利安人寿资深工程师陈萍春针对议题下关键点进行主张,几位专家的主张在江西农信运维技术经理邓毓、我本人以及某金融机构架构师李威等多位专家的复议后,形成了一定的共识,希望可以对同行有一定的参考。

刘艳春某金融公司架构师:

当前云计算、AI、万物互联等新技术快速发展,不断催化着信创存储的变革,只有打通芯片、部件、系统间的各个环节,实现主控芯片、固件算法、系统架构、应用方案的深度融合,真正实现存储技术的根本性变革,才能从底层去满足云、大数据、AI的需求。

一、建设背景

“十四五”时期是我国全面推进经济和数字化转型的关键时期,为了“大力推进自主可控信息系统建设,摆脱信息技术受制于人的局面”,国家高度重视自主可控信息产业的发展,明确了计算机信息系统的自主可控安全需求,大力推进党、政、军及关系国家安全的关键行业网络安全建设和自主可控信息系统建设,并相应出台了一系列的政策和要求,牵引自主可控信息产业的发展。到2020年底,部分业务场景新增采购的信创类分布式存储金额比例不低于30%,到2021年底,选定业务场景下的分布式存储应用解决方案占新增的金额比例应不低于50%。当前云计算、AI、万物互联等新技术快速发展,不断催化着信创存储的变革,只有打通芯片、部件、系统间各个环节,实现主控芯片、固件算法、系统架构、应用方案的深度融合,真正实现存储技术的根本性变革,才能从底层去满足云、大数据、AI的需求。

二、存储架构

1.信创分布式存储架构设计

信创分布式存储生于云、服务于云,面向新数据时代,基于先进的软件定义及分布式技术架构,以多协议一体化存储服务方式,为传统应用、云及云原生环境、海量内容、大数据、人工智能等多元业务场景,提供数据基础设施一体化解决方案,既能高效承载复杂业务场景的多元混合负载,又能保障用户信创的最佳投资收益比。

在架构设计上,信创分布式存储采用全用户态协议栈,实现秒级进程切换,压低时延,利用云原生技术,提供声明式存储资源供给服务,实现存储“敏捷开发、敏捷发布”。通过多副本或弹性EC数据冗余、快照、端到端数据一致性校验及自愈、远程复制等技术,保障从硬盘到卷/文件系统/桶、数据IO、存储节点、存储机柜、数据中心级可靠性。硬件关键部件模块标准化设计,软件栈全模块用户态设计,利于存储软硬件全栈故障维护和升级。基于深度学习算法,智能存储运维,提前预测容量和性能、预测硬盘故障、问题自动诊断。通过虚拟目录分区、大IO直通小IO聚合、多级智能Cache缓存、元数据加速、数据自动分级等一系列加速技术,并结合私有客户端,在实现一套存储集群面对多元混合业务场景的复杂压力负载的同时提供高IOPS、高带宽及低时延,满足IO密集型、吞吐密集型和时延敏感型及大容量等各种业务需求。

2.信创集中式存储架构设计

在各行业全面推进国产化信创趋势下,基于成熟可靠的国产化芯片平台,设计全栈存储系统,构建自主可控的信息技术底层架构,构建包含混合闪存、全闪存等存储。全闪存储在功能、效率、可靠性和智能运维方面都有一定提升,不仅可以满足中大型数据库OLTP/OLAP、服务器虚拟化、桌面虚拟化VDI、高性能文件共享等各种应用的数据存储需求,而且满足企业业务上云的业务演进需求。架构上采用业界领先的32GbFC-NVMe协议,后端最高采用100Gb RDMANVMe协议,实现存储系统端到端NVMe数据加速。结合SCM性能加持,整体性能优于同级别传统X86架构存储。采用分布式RAID、快照/克隆、端到端数据一致性校验、双活、异步复制等高级功能,保障存储高可靠性。

三、信创存储建设难点

1.存储和服务器虚拟化信创转型:存储和服务器虚拟化都是核心组件,对业务效率和高可用性有直接的影响,需要较长的时间验证其稳定性,尤其是基于专用硬件的存储,不仅需要采用新的CPU体系,整个硬件产品的从开发到稳定的周期也很长。

2.系统适配难度:由于将现有的应用系统迁移到信息创新环境中,需对终端、服务器等进行全面信息创新适配调优,主要包括信息创新硬件设备与操作系统、数据库、中间件、浏览器、终端、外设、安全防护设备、存储系统、安全管理系统、运维管理系统等进行适配调优,并需对现有的存储系统进行升级改造,技术复杂度较高,实现难度较大,因此需要更多的时间来完成信息创新存储关联软硬件系统的验证调优工作才能满足应用需求。

3.综合运维管理:信创存储实施项目后,信息创新应用的运行维护工作在工作量、工具方法、运维技能等方面与现有工作相比都发生较大变化。信息创新软硬件故障率相对较高,运维量将显著增加。而且尚无成熟信息创新软硬件运维工具,采用人工运维难度较高。当前大部分运维人员只具备商用架构软硬件技术能力,难以开展信息创新软硬件运维。因此需建设信息创新运维管理系统,根据整体设计,基础设施要求全面上云,国产存储需要在统一的云管平台上实现存储资源管理和使用。

4.安全保密测评:目前信创安全防护体系大多在商用架构下设计,尚无基于信息创新架构的成熟安全防护体系。仅有少量基于信息创新的安全产品具备国家保密局资质,故无法形成完整安全防护体系。基于商用架构的安全防护体系与基于信息创新的安全防护体系存在兼容性问题,在相对较长的一段时间内两套体系的用户和系统都会存在交叉,并行运行的问题较难解决。目前应加大安全防护体系产品的适配范围及力度,关注信创存储数据加密问题,形成一套优化的组合产品体系,满足分级保护安全防护的要求。此外,在分级保护体系化基于国产CPU环境的软硬件调优也是一项工作重难点。

四、解决方案

根据多个业务和场景不同,采用SAN和NAS的两种存储访问方式,其中电子公文系统、日常办公系统、OA系统、门户系统等都通过FC光纤链路提供块级存储空间,而文件级的访问都通过网络链路提供NAS存储空间;存储需要与云平台之间通过Cinder驱动进行对接,方便系统管理员进行基础设施的统一使用和维护。

徐子晨某商业银行存储工程师:

在信息安全问题频发、各国冲突频发的时代背景下,我国信创产业的发展已刻不容缓。在IT技术设施层探索一种包括计算、存储、网络全面自主可控的同时,需要达成比使用FC交换机性能更好的解决方案,为我国金融行业在全面自主可控徐子晨某商业银行存储工程师架构选型的道路上攻克光纤交换机这一技术堡垒贡献力量。

一、引言

近年来,在国务院《“十四五”数字经济发展规划》、央行《金融科技发展规划(2022-2025年)》、银保监会《关于银行业保险业数字化转型的指导意见》等一系列政策的推动下,银行业的数字化转型正在进入“加速跑”的新阶段,并更加注重数据管理和信息技术应用创新。

其中,数据作为数字经济时代最重要的生产要素,也是支撑金融机构数字化转型的关键要素,银行在数字化转型中,充分释放数据要素的价值潜能至关重要。而要开展数据挖掘、数据分析,让数据赋能业务发展,就必须要建立稳定高效的数据基础设施。

二、银行传统环境的存储现状

为了应对银行业OLAP业务和关系型数据库大量上线应用,批处理普遍存在处理时间窗口紧张的问题,以FC-SAN网络和集中式全闪存储设备作为IT系统基础架构成为保障业务系统高性能、高可靠性、低延时的通用底座。采用冗余配置的光纤交换机具有可靠的稳定性和安全性,服务器和存储设备通过冗余光纤通道分别连接到互为冗余的SAN光纤交换机上,FC-SAN提供了一套高性能、高可靠和高可使用的解决方案。

三、传统环境存储运维面临的问题

SAN光纤交换因专利垄断等原因,由美国100%掌控供应,这对于我国金融行业未来全面自主可控将带来巨大的风险,光纤交换机成为我国新基础设施建设中最大的短板与绊脚石。为我国金融行业在全面自主可控的道路上攻克光纤交换机这一美国技术堡垒,特别需要探索一种在保证IT技术设施层包括计算、存储、网络的全面自主可控的同时,可以达成比使用FC交换机更好性能的解决方案。

四、信创环境下存储网络替换实施是什么样的?

面对银行业数字化转型的新需求,从数据基础设施入手无疑是夯实基础的关键。近年来GPU和SSD的广泛应用,使得数据中心的计算和存储性能提升迅速,但网络协议逐渐成为数据中心的性能瓶颈,迫切需要打造一条新的“高速路”。

最初,NVMe作为一种硬盘接口协议,可以充分发挥SSD介质颗粒的性能,释放存储系统的巨大潜力。如今,NVMe SSD已经逐渐被对性能有极高要求的云服务商广泛采用。来自Gartner的预测显示,2022年NVMe SSD在存储中占比将达到52%,超越半壁江山,成为真正的主流,NVMe与SAS协议IO路径对比如图1所示。

360截图16251112669372.png

图1 NVMe与SAS协议IO路径对比

RDMA(Remote Direct Memory Access,远程直接内存访问功能)是一种远端直接内存访问技术,利用相关的硬件和网络技术,将数据直接从一台计算机的内存传输到另一台计算机,无需双方操作系统的介入。最终达到高带宽、低时延和低资源消耗率的效果。RDMA专用的InfiniBand网络架构封闭,无法兼容现网,使用成本较高,随着在网络融合大趋势下出现的RoCE,这使高速、超低延时、极低CPU使用率的RDMA得以部署在目前使用最广泛的以太网上。

RoCE是使用以太网承载RDMA的网络协议,性能与IB网络相当,需要以太网支持DCB特性,保证网络无丢包。RoCEv2是一种网络层协议,引入IP解决扩展性问题,可以跨二层组网,实现路由功能。RDMA协议栈如图2所示。

360截图16251112669372.png

图2 RDMA协议栈

NVMe over RoCE是NVMe over RDMA的一种,如图3所示,利用RDMA的高性能远程访问实现远程访问NVMe设备。NVMe over RDMA直接在RDMA多队列上实现了NVMe多IO队列,RDMA的SQ/CQ和NVMe SQ/CQ一一对应,实现端到端多队列,无需定义新的报文格式,NVMe协议报文直接作为RDMA数据传输。

360截图16251112669372.png

图3 NVMe over RoCE队列映射

NVMe over RoCE组网和iSCSI组网类似,都是基于IP网络,NVMe over RoCE要求交换支持DCB无损网络配置。全闪存存储系统需要支持NVMe over RoCE的接口卡为RoCE接口卡,通常可以支持25GE、100GE速率。

面对标准NVMe over RoCE组网(如图4)

360截图16251112669372.png

图4 NVMe over RoCE组网

相较于FC组网在自动管理和易用性上的短板,国内大部分厂商通过推出网络管理增强插件实现主机自动快速建立连接,快速识别故障的能力,更好的支撑企业核心业务应用的需求。为了发挥全闪存存储NVMe SSD的最大性能,同时能够扩展NVMe在数据中心中的应用,NVMe over Fabric应运而生,我国IT基础设施厂商选择的NVMe overRoCE(NoF+),不仅确保了信息技术应用创新需求,也具有更高的综合性能和成本效益。通过服务器,交换机,存储配合,安装SNSD(存储网络智能发现)插件(图5),注册NVMe-oF服务信息,实现服务变化广播,服务器通过接受服务变化广播通知,实现对NVMe-oF Target访问控制。

360截图16251112669372.png

图5 SNSD增强插件

全闪存存储系统可以支持存储设备自动发现;主机增强驱动自动发现网络中的存储设备,自动建立连接,无需手动建议连接;链路故障自动快速切换IO路径;主机增强驱动根据收到的相关端口变化信息自动将存储断开,并将业务切换至备用连接,如图6所示。

360截图16251112669372.png

图6 NVMe-oF快速故障切换

五、结语

从改造结果上来看,在去除FC-SAN之后端到端的NVMe环境能够得到相较于FC更高的性能表现。从自主可控的角度出发,当前NVMe overRoCE组网替换FC-SAN交换机组网称得上是我国IT基础设施全面自主可控的最佳解决方案。具体对比情况总结如表1所示:

表1 FC-SAN交换机组网与NVMe over RoCE增强组网对比表

360截图16251112669372.png

360截图16251112669372.png

360截图16251112669372.png

陈萍春利安人寿资深工程师:

“科技自立自强是国家强盛之基、安全之要”,安全可控属于国家重大战略目标,具有紧迫性和必要性。对于本议题来说,个人看法是需要回答好“如何理解全栈信创技术?”、“信创存储与非信创存储有哪些不同?”以及“如何做好信创存储的选型?”这样的三个问题。

一、全栈信创技术的理解

360截图16251112669372.png

图7全栈信创技术框架

如图7所示,全栈信创技术框架可大致分为基础硬件、云平台、基础软件、应用系统、办公终端与信息安全这六大类内容。基于个人对信创技术的理解,在全栈信创技术框架中,国产芯片是硬件设备的核心,国产操作系统是软件的灵魂,整芯筑魂的重要性不言而喻,这也是全栈信创技术最基础、最核心的部分。除此之外,国产数据库和中间件是技术生态的重要组成部分,也是信创替代改造的重点与难点。

二、信创存储架构分析

再来看信创存储,其特殊之处在于采用了国产芯片与国产操作系统技术。

对于存储来说,控制器芯片高速处理各种数据IO请求,会有一定的性能需求,也是存储设备的核心部件之一。国产芯片主要包括海光、鲲鹏、飞腾、兆芯、龙芯和申威这六大芯片,随着信创替代的推进,国产芯片逐渐从能用、可用转变为好用,硬件性能大幅提升,技术生态也在逐渐完善。

国产操作系统方面,都是基于Linux内核进行研发的,相比于CPU来说,其技术复杂度大大降低,软硬件适配的生态也相对更加容易建立。但操作系统毕竟是计算机软件的核心,需要各个硬件厂商的驱动支持,需要各软件厂商去做兼容,需要一整套的知识体系框架、编程接口等等。除了芯片与操作系统,全栈信创存储的发展还受限于其他基础组件:

・存储介质:包括内存、固态硬盘、机械硬盘等,整体来看,国内厂商在内存和固态硬盘方面,可以替代一部分中低端的产品,而高端产品目前还是国际龙头企业处于优势地位。

・存储网络:在企业存储领域,FC-SAN一直占据主导地位,FC网卡和FC-SAN交换机也基本上被国外厂商垄断。IP-SAN是一个替代思路,但是稳定性和性能方面都有不足。

三、信创存储选型建议

1.技术选型原则

个人总结了如下的选型原则,仅供参考:

・符合信创技术标准,是最基础的选型原则;

・借鉴行业经验,采用主流技术路线与可靠技术架构,以满足业务连续性要求;

・做好风险评估,关注项目进度风险、供应链风险与技术持续性等风险;

・成本收益平衡原则。

2.传统存储与软件定义存储

根据不同存储架构方式,主要包括基于专有硬件的传统存储和基于通用服务器的软件定义存储(SDS)两种。传统存储和SDS两者孰优孰劣,不能一概而论。

从定性分析的角度看,传统存储架构经过多年的市场验证,技术成熟度较高,架构简单,但方案不够灵活,与新技术的契合度不高;SDS扩展性好,方案灵活,版本更迭快,与新技术的契合度高,但技术方案复杂,成熟度不高,很少用于核心存储场景。

从性能数据对比角度来看,在4~16K这样的小IO测试场景下,相比于传统存储,SDS的存储延时偏高,且性能不稳定,最大延时让人很难接受;而在128K以上的大IO测试场景下,传统存储的吞吐量瓶颈就较为明显了,SDS优势比较突出。

整体来看,采用哪种方案建议按照应用场景和运维能力来选择:对于核心存储场景,还是以稳为主;对于一般存储场景,如果运维积累足够,可以尝试SDS存储,否则还是建议传统存储;对于云计算底座,考虑到云计算底座的迭代速度,建议契合度更高到的SDS存储,以适应技术的更新迭代;对于海量非结构化数据场景,建议选择扩展性好,性能更高的SDS存储。

3.存储基础组件

芯片:据相关数据统计,在金融行业应用最多的是鲲鹏和海光两种芯片,性能较出色,飞腾也有少量使用,但其性能还有待提升。针对鲲鹏和海光两种芯片的性能对比,笔者基于UnixBench测试工具做了性能实测,如表1所示,鲲鹏的单核性能是要明显优于国产X86海光芯片的。另外,ARM架构的功耗更低,单个芯片上可以集成更多核心,目前单个CPU最高达到了64核。基于如上分析,在存储性能需求较高的场景下,更推荐基于鲲鹏芯片的信创存储方案。

表1鲲鹏和海光两种芯片性能实测

360截图16251112669372.png

操作系统:操作系统也是一个关键点,与硬件联系紧密,对存储系统的稳定性和性能都有影响。传统存储的OS是封闭的,对OS也做了一定的优化;而SDS存储部署则需要更关注OS这块,在存储服务器上运行不同的操作系统,实际的性能差距对比还是明显的。

存储介质与存储网络:这两个基础组件离国产化成熟替代尚有一段距离。依据成熟一项、应用一项的原则,在核心业务场景中,存储介质与存储网络组件还是建议采用较为主流、成熟的方案,避免对业务产生较大的影响。

结束语

以存储交换网络交换机技术为例,探讨以NVMe over RoCE组网替换FC-SAN交换机组网的解决方案作为信创产业的一角,充分说明信创产业在强调自主可控为基本原则前提下,如何提高选型设计的科技含量是每个企业应该追求的目标。

THEEND

最新评论(评论仅代表用户观点)

更多
暂无评论