信创云环境下,企业如何规划数据存储技术路线的选型?

数据存储是企业信息化建设的核心内容之一,如何规划数据存储成了企业信息化建设的一个重要的问题。随着信创产业的快速发展,信创云迎来了前所未有的发展机遇,作为信创云的数据存储底座,如何考虑对数据存储系统长久规划的立足点、具体思路以及选型技术策略是本次议题关注的重点。

本文来自微信公众号“twt企业IT社区”。

数据存储是企业信息化建设的核心内容之一,如何规划数据存储成了企业信息化建设的一个重要的问题。随着信创产业的快速发展,信创云迎来了前所未有的发展机遇,作为信创云的数据存储底座,如何考虑对数据存储系统长久规划的立足点、具体思路以及选型技术策略是本次议题关注的重点。

【栏目主编】赵海 某金融系统高级主管:本议题由江西银行存储工程师程宗憬、某制造企业系统架构师潘延晟、某金融公司架构师刘艳春发表针对议题下关键点的主张,几位专家的主张在某金融行业公司技术经理陈橙、某银行技术经理哲哲蛙及我本人等多位专家的复议后,形成了一定的共识,希望可以对同行有一定的参考。

程宗憬 江西银行存储工程师:

随着金融数字化转型的推进和深入,大家在选择云架构时开始考虑的更长远、更谨慎。一方面会从企业级、集团级、未来整体发展演进的眼光进行整体规划,避免出现云或资源池的孤岛林立:另一方面采用自主可控的信创云架构也成为众多金融企业的重要抉择。

时下,信创已成为了我国社会经济发展最关键的一环,而在推进信创产业发展的过程中,“云”起着承上启下的核心作用。随着数字经济时代到来,金融领域对信息技术软硬件的依赖程度不断加深,为云服务行业发展提供良好的发展契机。随着金融数字化转型的推进和深入,大家在选择云架构时开始考虑的更长远、更谨慎。一方面会从企业级、集团级和行业级整体发展演进的眼光进行整体规划,避免出现云或资源池的孤岛林立:另一方面采用自主可控的信创云架构也成为众多金融企业的重要抉择。下文就信创云平台存储路线的选型做一些探讨。

一、云平台存储数据的类型

从数据格式来看,一般云平台数据存储通常可以分为块存储、文件存储、对象存储三个种类。不同类型的存储技术在云平台中有不同的特点和适用场景。企业应根据自身的业务需求和数据特点,选择最合适的存储类型,以满足数据的安全、高性能、可扩展性和成本效益等要求。但在实际环境中,一般以使用场景作为区别主要包括虚拟机存储、数据库存储、非结构化数据存储等。

1.虚拟机存储

虚拟机存储是指用于存储虚拟机镜像、操作系统、应用程序和用户数据的存储。一般而言,虚拟机存储较大且普遍超过10GB,单个虚机的IOPS时延要求较低,同时可用性要求较高。企业中虚拟机的数量一般成百上千台,大量存储需求为企业配置云存储带来了挑战。从使用角度虚机存储又可分为如下几类。

(1)虚拟机存储,虚拟机磁盘是虚拟机的主要存储介质,用于保存虚拟机的操作系统、应用程序和用户数据。

(2)镜像存储,用于保存虚拟机镜像,包括预定义的虚拟机模板、操作系统映像和应用程序镜像。

(3)快照存储,用于保存虚拟机快照,它是虚拟机当前状态的备份,可以在需要时快速还原虚拟机到之前的状态。

(4)备份存储,用于保存虚拟机的备份数据,备份存储是对虚拟机磁盘和数据的定期备份,以确保数据的安全性和可靠性。

(5)冷存储,用于保存不常用的虚拟机或数据,这些数据很少被访问,但需要长期保存。

在选择云平台存储技术路线时应充分考虑需求与成本之间的关系。主要考虑因素包括如下几个方面。

(1)性能,虚拟机存储的性能直接影响虚拟机的运行效率和响应时间。对于需要高性能的应用程序,需要选择具备高性能的虚拟机存储,这部分需求成本较高。

(2)可用性,虚拟机存储应具备高可用性,确保虚拟机和数据的持久性,冗余和备份机制是确保虚拟机存储可用性的关键。

(3)成本效益,不同类型的虚拟机存储解决方案在成本上可能有较大差异。企业应根据实际需求和预算限制,选择最符合成本效益的云平台存储方案。

因此,在实际的建设中可考虑,构建统一管理的不同类别资源池,同时每个资源池支持动态拓展,并有效提升存储资源的管理和使用效率。结合虚拟机存储的使用特点,存储资源池可使用SSD、SAS接口的磁盘甚至SATA接口的磁盘。

2.数据库存储

数据库存储是一种用于存储和管理数据库数据的存储系统。云平台提供各种类型的数据库存储服务,包括关系型数据库、非关系型数据库和数据仓库等。云平台数据库存储通常支持多种数据库引擎,满足不同应用的需求。

(1)弹性扩展,允许根据业务需求进行弹性扩展,自动调整存储容量和计算资源。这使得数据库能够适应不断增长的数据量和访问负载,无需手动干预。

(2)高可用性和冗余,通常提供高可用性和冗余机制,数据会被自动复制到多个存储节点或数据中心,以防止数据丢失和灾难性故障。

(3)安全性和权限管理,需要重视数据的安全性,提供数据加密和访问控制等安全特性,可以对数据库进行权限管理,限制不同用户或角色的访问权限。

企业在选择云平台数据库存储时,首先要明确业务需求。不同类型的数据库适用于不同的应用场景,关系型数据库适合事务处理,而非关系型数据库适合处理大规模的非结构化数据。同时也要考虑性能,根据应用的性能要求选择合适的数据库存储。关系型数据库通常具有较高的事务处理能力,而非关系型数据库则更擅长处理大量的并发读写操作。云平台数据库存储的高可用性和冗余机制对于关键业务非常重要。企业需要确保所选择的数据库存储能够提供高可用性和数据备份能力,以防止数据丢失和业务中断。当然,从控制成本的角度,需要根据实际预算来选择合适的数据库存储服务。

3.非结构化数据存储

NAS、分布式文件存储和对象存储都是非结构化数据存储管理可采用的技术。如果数据不是大容量、对性能和高可用有要求,通常采用NAS存储,例如在容器云环境实现持久化存储。如果数据是视频等大容量数据、数据量超大如达到PB级以上,应用支持S3协议,对象存储的扩展性更好、维护成本更低,例如在容器云环境实现日志数据归档。

二、云平台存储主要路线

1.存储虚拟化

存储虚拟化是在云计算环境下,将底层的物理存储设备抽象为逻辑存储池,以提供更加灵活、高效和简化的存储资源管理和配置。通过存储虚拟化,企业可以实现对不同存储设备的集中管理,并将其汇聚成统一的存储池,使得存储资源的利用率得到提高,数据的迁移和调整变得更加便捷。其实现方式更多的是对传统块存储(SAN)的虚拟化。而为了更好的实现异构存储的统一纳管,一般采用统一存储网关实现存储的虚拟化。

存储虚拟化网关是一种连接本地存储与云存储之间的中间层,将本地存储资源与云存储服务进行无缝集成。它充当了本地存储和云存储之间的桥梁,使得企业可以通过统一的接口来管理和访问不同存储系统的数据。云存储需求中数据的备份迁移、复制及同步、集中管理、数据安全甚至是协议转换均可通过虚拟化网关实现。存储虚拟化网关的好处在于它可以帮助企业充分利用现有的本地存储资源,并将其扩展到云存储中,从而实现存储资源的高效管理和利用。不足之处就是在海量并发数据请求下,存储虚拟化网关作为一个中间层,可能会引入性能瓶颈,尤其是在数据传输和处理方面;引入了单点故障,网关的故障将会对整个存储系统的可用性;增加成本,从设备的采购、配置管理等均加大了企业的投入。

综上,存储虚拟化的主要的使用场景还是在传统IT环境及私有云环境。自然面向的也是高IO负载,低读写延迟等重要应用业务环境,比如数据库。是对传统集中式存储的一种升级及扩展。

2.分布式存储

分布式存储是相对于集中式存储而言的。它将数据分散存储在多个节点或设备上,而不是集中存储在单一的存储设备中。在云平台中,分布式存储是较为常见的数据存储方式,特别适用于大规模的数据存储和处理场景。

相对于集中式的存储虚拟化而言,分布式存储包含;①高可用性,分布式存储将数据副本分散到多个节点上,当某个节点发生故障时,其他节点可以继续提供数据访问和服务,从而保障了系统的可用性;②性能提升,允许数据在多个节点上并行访问,从而提高数据读写速度和系统整体性能;③数据冗余,数据在多个节点上存储多副本,提供数据冗余,防止数据丢失和损坏。不足之处则是系统相对复杂;数据的一致性保障具有一定的困难,多副本之间的数据一致性对分布式存储系统来说,是一个大的挑战,同时多副本强一致的要求也会给存储系统带来网络延迟的问题。

因此,分布式存储多适用于需要存储大规模数据和进行复杂数据处理的场景,如大数据分析、人工智能应用等;同时可用于云平台需要分布式存储来支撑大量用户的数据存储和访问需求场景。分布式存储和对象存储是包含关系,分布式存储是一种存储节点的物理组织形态,分布式存储可以提供块、文件、和对象存储服务。对象存储是一种基于对象的存储模型,它赋予每个对象唯一的标识符,而不像传统的文件系统以层级目录结构存储。在分布式对象存储服务中,数据被分散存储在多个节点或设备上,实现数据的高可用性和可靠性。

3.网络共享文件存储

这里提一下云平台也比较常用的NAS数据存储。NAS存储专门用于存储共享数据,通过网络为多个用户及客户端提供文件级别的存储和访问服务。一般使用独立的硬件设备作为一种云服务使用。

实际应用中,有部分数据存储的场景更加适合以太网传输,也更适合以文件系统为载体。存储虚拟化的数据要想实现跨地域的传输,在成本上、灵活性上都显得异常困难。因此在对存储技术路线进行选型时,必须要考虑这部分数据存储的需求。

综上,在云平台中进行数据存储路线的选型是一个关键且复杂的任务,涉及到数据的安全性、性能、可扩展性和成本效益等方面。首先要明确企业或用户的数据类型,包括结构化数据、非结构化数据和半结构化数据等。确定数据的访问频率、并发用户数以及读写操作等,这些因素将影响存储系统的性能要求;考虑数据的安全,特别对于敏感数据;根据数据特点和需求,可以选择不同类型的存储技术,存储虚拟化、NAS网络存储或分布式存储等。还要考虑使用本地存储设备还是云存储服务,或者结合两者的混合存储方式;考虑性能要求,根据数据访问需求和应用程序的要求,选择适当的存储性能,包括读写速度、IOPS等。

潘延晟 某制作企业系统架构师:

业务发展使得对技术的需求越来越多样化,一种技术解决所有问题的思路已经很难适应当下的信息化发展需求。业务不是一成不变的,技术也不是,两者在不断的磨合、适应,且在同时发展,这些不确定的因素给企业的数据存储规划带来了更多的困惑。如何规划数据存储成了企业信息化建设的一个最重要的问题。

一、数据存储技术路线分析

1.发现问题

爆炸式的数据增长使传统的竖井式存储方式呈现出了很多弊端。由于架构的限制,业务增长产生的数据分散在不同的存储中。当业务达到一定规模后产生了数据互联互通的需求,却因为存储的限制而无法实现,各个业务数据就这样成为了一个个的数据孤岛。竖井式的存储也限制了性能和容量的扩展,当业务数据扩展到一定规模时,势必出现性能和容量上的瓶颈。随着硬件设备的老化、缺少备件、备机和备用环境,这些分散的数据孤岛可靠性也大幅下降。数据存储需要通过横向扩展来实现扩容和升级。

上层的系统架构和数据类型随着信息化的发展也产生了巨大的变化。虚拟化的出现简单粗暴地解决了传统架构中的很多问题,容器更是以敏捷快速和高效的利用率等优点迅速在系统架构中占有了一席之地。快节奏的社会发展对数据的处理能力有了更高的要求,也产生了更多的数据:有传统数据库类的结构化数据,有各种文档、图片、音频、视频等非结构化数据,还有特殊的半结构化数据。业务的多元化和数据的多样性要相互融合,又要避免相互干扰,要实现数据的互联互通,又要实现数据的安全可控。复杂多变的需求和不断增长的海量数据给企业的数据存储带来了巨大的考验,这些情况迫使企业的数据和业务达到一定体量时就不得不面临存储设备更换选型的问题。

2.分析问题

信息化发展的速度让多数企业都没有足够的资金和精力去紧跟前沿技术,特别是像数据存储这样最为核心和底层的系统,很多时候都是迫不得已才会选择更换。对业务的严重依赖、技术上的断代、西方制裁下的技术壁垒、数据的迁移风险以及未来不确定的扩展需求都是企业在设备更换和选型中要考虑的问题。

企业在存储架构更换和选型中,首要关心的便是安全和可靠。运行多年的业务系统积累了大量的企业生产数据,这些数据的价值甚至超过了业务系统本身。数据是信息化运行的核心载体和关键内容,企业中涉及政治、经济、外交、军事、科技、生物等方面的敏感数据一旦泄露,容易被恶意利用,对国家安全造成重大危害。其次,关系个人安全,一旦大量涉及个人身份、家庭、经济状况、兴趣爱好等公民个人隐私,以及人脸、指纹、DNA等不可逆转的生物特征信息被恶意泄露,安全隐患不容小觑。同时也关系数字经济的健康安全可持续发展,除了业务数据外,很多企业业务架构调整后的虚拟化和容器化的系统环境数据也都保存在了存储上,存储的可靠性已经不仅仅只是业务数据本身,而是直接影响到整个应用系统的稳定运行。

传统的信息系统架构中,多半是操作系统+应用软件+数据库的方式,结构相对简单和独立,某个环节出现问题可以单独来恢复,但现代信息化的架构更为复杂和庞大,数据存储提供的不仅是业务数据,还有虚拟化的应用系统,业务环境等等。数据存储成了整个信息化系统最底层的基础。比起上层的业务环境,底层的数据存储每一次变动都会影响上层业务,因此数据存储在更换和选型时就要考虑到后期设备变动带来的影响,尽可能的减小和避免这种影响。高可用的集群架构可以避免存储的单点架构,远程的镜像复制配合业务层的虚拟化等架构可以实现整个信息系统的数据容灾和业务容灾,但这些架构也会使存储架构变得庞大和复杂,难以驾驭。

现代社会,是一个快节奏的社会,信息化已经渗透到了我们生活的方方面面,人们不断的提出各种各样的想法并实现它。为了适应这种快节奏的需求变化,数据存储架构应该具备更好的扩展能力和快速部署方式,保证数据存储在扩展时对上层业务的影响最少,业务中断时间最短,同时又要能便捷的回收资源,实现资源的充分利用,保障数据存储成为一个灵活开放的资源池来被上层的业务使用。

为了实现集群双活甚至两地三中心等复杂的容灾架构,企业在选择数据存储技术路线时还需要考虑存储的跨地域能力,是否能够应对异地的双活和容灾的需求。

除此之外,企业在数据存储更新的选择时还会面临一种特殊的情况,那就是企业自己有时候不清楚自己的需求是什么,有时候内部有着各种各样不同的需求,缺少清晰明确的需求指导,很难找出一条清晰的数据存储技术路线来满足现在和未来的数据治理需求。

640 (1).png

图1数据存储技术路线分析图

640 (1).png

图2存储系统外特性图

3.技术选型思路

信息技术应用创新发展是一项国家战略,也是当今形势下国家经济发展的新动能。发展信创是为了解决根本性安全的问题。根本性安全是把它变成中国自己可掌控、可研究、可发展、可生产的。信创产业发展已经成为经济数字化转型、提升产业链发展的关键,从技术体系引进、强化产业基础、加强保障能力等方面着手,促进信创产业在国内落地生根,带动传统IT信息产业转型,构建区域级产业聚集集群,也是中国目前所有信息化发展的战略性指导。

随着企业信息化规模的扩大,数据存储也从传统单一设备发展成为一套综合复杂的系统。企业根据现有和未来发展中各种明确和不明确的需求来进行数据存储选择很难得出一个标准答案,现代信息化环境中数据存储的选择更像是私人定制。企业信息化传统的数据存储由于性能,容量等问题,一般是只保存重要的数据库数据和主要业务数据,但业务的发展衍生出更多类型的数据,有系统环境,有上传的文档,图片,音视频等等。不同的数据类型对存储的性能需求也不一样,所以数据存储架构的改造首要的就是对业务和数据的分类梳理。不同行业有着不同的业务特点,即使是同行业中的不同企业,也有着多种因素的差异。但概括来说目前企业中业务的类型大体可以分为核心业务,辅助业务,和测试用的非生产业务。数据类型也基本可以分为结构化数据和非结构化数据。

除了数据安全可靠,易于维护扩展等需求是两类数据共同的需求外,结构化数据和非结构化数据还有各自的特点。结构化数据的体量一般比非结构化小很多,因为数据记录小以及随机查询的需要,读写硬盘的块大小(block size)一般都很小,以4KB/8KB为主。这种小数据块的读写,其聚集起来的总带宽不会很大。对于性能指标,我们关注的是IOPS(Input/Output OperatIOns Per Second,每秒读写请求的个数),而非结构化数据一般是比较大的文件为主(对于几MB的文件就可以理解为相对意义上的大文件),读写块大小会设置得比较大(64KB以上,甚至512KB或者1MB),而且单个文件内部可以认为是连续读写的。所以其聚合的读写速度会比较高,对于这类数据的读写,我们往往更关注总带宽。另外非结构化数据总量巨大,动辄数PB,对数据的管理和保护也不再是传统的双机HA那么容易。简单总结起来可以归纳为结构化存储的数据体量相对小一些,数据增长有限,对IOPS的要求更高。而非结构化存储的数据量更加庞大,数据增长快。从数据存储的演进路线来看,传统的集中式SAN存储更适合处理结构化的数据,新近崛起的分布式存储更适合处理海量的非结构化数据。

二、企业存储建设发展阶段

很多大型企业的数据存储架构规划已经逐渐开始朝这样多架构的方向来发展,根据不同的业务需求场景,采用不同的存储架构,形成不同类型的存储资源池。通过两地双活的架构来实现数据和业务的容灾,最后通过第三地数据中心或者云端存储实现数据容灾,形成现在比较流行的两地三中心架构。

但毕竟多数企业的技术储备和资金预算难以实现这样规模的存储架构,业务的重要性上也达不到这样级别的要求。特别是一些企业的资金预算在短期内不得不选择其中的一种方式来作为存储架构时,选择集中式存储、分布式存储、或是云存储就成了难题。多数企业的情况都不太一样,但在数据存储的选择上,大体可以分为三个阶段。

1.基础阶段

根据企业自身行业的特点和业务、数据的类型确定基础存储架构。很多企业在这个阶段只能被迫选择其中一种架构,那就需要去尽量平衡数据特点来选择。举个例子说:医疗行业的主要业务系统主要有HIS系统、CIS系统、PACS系统、LIS系统、RIS系统等。通常HIS系统是覆盖全部业务的信息管理系统,与LIS、PACS、RIS、EMR等外围模块不断融合。而整套系统体系架构中最庞大的数据莫过于PACS系统产生的影像以及其他的电子病历了。这些数据基本为非结构化数据,数量庞大,增长速度快,要求保存周期长。传统的集中式存储在容量和成本上很难满足数据需求。这种情况,医院可以通过超融合的虚拟化+分布式存储的架构来实现基础阶段的数据存储以及业务架构的整体改造。超融合的虚拟化平台完成对各套业务系统的业务支撑,分布式存储为PACS等系统提供海量的存储空间。随着业务的增长,可以通过扩展节点来增加计算和存储资源。

而对金融行业来说,业务多为结构化数据,分支机构多,数据集中,并且经常会有周期性的大规模数据读写运算,对数据的运算速度要求也更高。在这种情况下,金融行业基础阶段的存储更适合选择IO性能更强,也更稳定的FC SAN集中存储架构,上层的业务系统可以采用虚拟化和集群等方式来保障性能最优化和业务的安全可靠。

当然这两个例子并不是绝对的,实际的环境中仍然有各种因素影响最终企业存储架构的选择,特别是企业信息化的规模,只能说这两种例子是一个常见的情况。

目前两种存储架构的技术都非常的成熟,在多数通用场景下性能上也相差不大。对于一些并没有明显行业特征,或者数据特点不明显的中小企业,两种架构方案也都可以适用。如何选择则可以根据价格,对产品的熟悉度,规模以及预计未来的发展等因素来考量。

2.扩展阶段

随着企业信息化的发展,数据存储多半不会只存在一种技术架构。只不过企业的信息化发展速度并不固定,有的发展迅速,有的发展缓慢,有的数据增长快,但新业务增长少,有的则是新业务增长快,而业务数据少。整体架构的发展方向也并不明确,高大上的两地三中心对于这个阶段的企业来说还有些遥远,不同的发展速度让各个企业在存储架构的扩展上缺少有效的参考依据,往往在这个阶段摇摆不定。由于已经有了一定的数据基础,并且对上层的业务也有了一定的依赖性,这个阶段的存储扩容和架构改造要考量的因素更多。如企业规模、资金预算、阶段业务特点、数据安全需求、未来的业务发展趋势和旧设备状态等。多数企业的数据存储建设初期往往容量都不会预留太大,也很少会考虑国产化,安全性等问题。数据的需求往往都比较简单。但随着企业的信息化应用不断的发展,首先迅速增长的就是数据量,一般激增的数据多为非结构化数据。突然增加的数据量和混杂的数据类型让集中式存储有些难以适应,特别是对非结构化数据的处理上。

所以企业在这个阶段要梳理出目前数据存储面临的问题和瓶颈。

(1).目前数据存储急需解决的问题是什么?设备老化?存储空间不足?性能不足?还是无法满足业务的安全性需要?

(2).业务需求和数据量是否有所增加?

(3).增加的业务类型和数据类型是哪些?

(4).是否有更高的可靠性的需求。

如果单纯的只有设备老化,企业没有更大的业务量和业务类型上的增长,说明企业的信息化发展稳定,业务类型单一,那么可以继续采用现有的技术架构。对原有的设备进行升级或者更换,旧设备可以替换为测试业务设备来实现利旧。

如果是因为数据量的增长和业务扩展导致存储空间不足和性能不足,那么则要去评估现有的业务类型和新增加的业务类型有什么,根据数据类型和数据量选择新的存储架构。因为数据量和业务量增加导致了对新技术架构的选择,说明企业的信息化发生了重大变化。这时候企业需要评估新业务的重要性,数据类型和业务类型,考虑是迁移旧数据到新构建的数据存储方案上,还是保持旧业务原有的数据存储方案不变,通过扩容或者添置新存储独立运行新扩展的业务,两种架构并行。

无论是哪种原因引起的存储扩容和升级都应该给对未来的业务扩展做出一定的预留,这里包括数据容量,性能以及为业务再次发生变更时候的设备扩展接口,通过设备的扩展来减少对核心架构的重大改动。

最后数据存储都要面临的一个问题就是数据安全问题。如果业务层没有更高的需求,那么暂时可以通过备份设备来对存储数据和业务数据进行一个基础的保护,通过备份产品的CDM技术对一些重要业务的临时接管,相对来说投资也会少一些。

640 (1).png

图3数据中心多技术架构存储系统

3.容灾架构阶段

数据存储的最终形态,很难用一种产品或者一种技术架构来描述。存储的最终目的会很简单,也会很复杂。说它简单,是因为存储的最核心目的一直都是数据的载体。说它复杂,是因为信息化的发展衍生出了各种各样的数据类型,不同的数据类型有着不同的特性和需求,单一的存储很难满足未来多元化的数据需求。同时这些数据也越来越重要。可以说数据是构成现代信息化社会的基础,一旦这些数据丢失或者损坏,那么这个信息化构成的虚拟社会也将会发生损坏,甚至会直接影响到我们的现实社会。

所以数据存储除了保存数据,还要保证数据读写的顺利,保障数据的安全可靠。那么就必然通过不同的技术和产品架构来弥补整个存储系统中的不足,例如:通过设备的扩展达到性能的提升。从现有的技术发展来看,容灾架构基本上是按照这样的路线来发展,最初建立本地的数据中心和独立的数据存储,之后扩展本地的存储架构,可能会在本地数据中心中形成多套架构的数据存储,并且预留出一定的扩展接口,最终根据实际的业务需求形成异地容灾的双活架构。两地数据中心通过数据和业务的同步逐渐完成数据容灾到业务容灾的转变,有条件的会再建设第三地的数据容灾中心,来实现对主备数据中心的补充。这其中最重要的就是技术的通用性,数据中心的存储系统按模块化部署,便于扩展,所有的数据中心和业务层形成数据专网,每个数据中心也是一套独立的数据存储系统。整个架构互为备份,又各自独立为一个整体。

640 (1).png

图4存储系统备份架构示意图

企业的业务数据已经涉及到我们生活的方方面面,甚至国家安全,数字经济与实体经济加速融合,数据权属问题更加凸显。因此,数据安全已处在非重视不可的关键期。企业存储系统的最终架构一定是复杂的,对数据存储的选择也不简单的局限在传统的容量与性能指标上。除了满足业务的基本需求还要安全可靠、自主可控、易于维护、便于扩展、运行稳定……企业的数据从传统的数据保存发展为数据治理,而数据存储系统也开始承担了更多的功能需求,成为整个信息化最核心的系统。

刘艳春 某金融公司架构师:

企业需全面评估信创云对接信创存储如何在数据层实现各生态的适配,真正达到商业可用,信创生态和现有生态如何融合、过渡及迁移。

在信创技术体系的升级替代过程中,信创云扮演着重要的角色,可屏蔽底层软硬件差异,实现对存量环境和创新环境的统一支撑和管理。在底层基础设施方面,信创云自主研发核心组件,对开源组件有高度的代码掌控度,保证安全可控,并与信创芯片、服务器和操作系统进行兼容匹配,以支持多种场景应用。在上层应用方面,充分利用云计算的虚拟化、高可靠性、高可扩展性以及按需自助服务等特点,打造“一云多芯”的能力,基于统一的云资源池向上提供一致的云服务,为应用迁移、业务开发提供高效支撑,推动信创产业的发展和创新。

一、信创云建设技术路线

1.基于公有云技术栈的专属云部署:以公有云为基础,提供全栈资源池专属区解决方案。提供IaaS到PaaS的全栈一体化单体云部署,IaaS部署模式为计算节点、存储节点及几十台管理节点独立部署,起步规模大,初始投入成本高,部署周期相对长,运维依赖原厂,该架构适合超大型机构。

2.基于公有云技术栈的全栈私有化部署:公有云下移的私有云技术全栈云,将全栈公有云技术搬回企业本地化部署,该架构主流基于KVM提供虚拟化,自研分布式存储。IaaS部署模式为计算节点、存储节点及轻量管理节点,起步规模近10台左右,相对公有云专属云规模小,全栈私有化部署可灵活定制开发、灵活扩展、数据本地存放相对安全。该模式初始投入成本不大,部署周期适中,适合按需定制化,安全要求高的所有企业。

3.基于开源全栈私有云(存算分离)部署:基于OpenStack、Ceph等基本开源组件开发。主流以OpenStack作为云管理,虚拟化和分布式存储通过分离或融合部署实现,该架构对接开源组件相对多,部分解耦,运维及研发难度相对高,商用化程度有限。

4.基于分层解耦模块化私有云部署:该模式基于开源技术的路线,相对于公有云私有化部署,在复杂度上有所降低。该架构当前主流云原生架构,云原生加速企业信息系统由烟囱状、重装置和低效率的架构向分布式、小型化和自动化的新一代软件架构的转变。以容器、微服务、DevOps为企业提供更高的便捷性、时效性、弹性和跨云移植,缩短交付周期,易于开发和维护,降低信创领域试错成本,适合大部分企业的通用需求,云原生改变了企业IT技术和基础设施,也深刻改变着组织和流程、软件架构和设计的发展走向,分层解耦模块化私有云成为企业信创云新范式。

5.超融合架构部署:基于软件定义存储和信创服务器虚拟化技术,将计算节点、存储资源和网络交换高度集成,超融合架构除了具备软件定义和分布式架构带来的优势,包含了虚拟化、存储和网络多种核心组件,具备基础软硬件解耦能力,能够循序渐进实现数据中心的信创升级替代,超融合架构起步规模小,3台起步,适合中小企业。超融合信创云模式也是未来信创云建设的主流技术路线之一。

当前信创云架构建设的主流技术路线以公有云全栈私有化部署、基于分层解耦开源模块化私有云技术路线以及超融合信创云基础设施为主。从长远的视角来看,考察何种架构能为业务带来真正的价值和长期的收益,需要顺应分布式和软件定义的技术大趋势,既要考虑基础架构的信创转型,也要兼顾云化转型。

二、信创云中软件定义存储架构设计

目前信创云在建设过程中仍然面临软生态薄弱,硬件兼容适配差,可拓展性不强,GPU等基础软硬件领域性能仍待突破,迁移难度大,监管及运营压力大等挑战。信创云原生解决方案能够在满足企业信创要求的同时,可弱化适配难题。在软硬件的兼容适配方面,异构资源的纳管,支持不同的基础架构指令集,上层应用通过容器的标准化封装之后,屏蔽不同操作系统差异性,容器化封装帮助平滑迁移,一云多芯可统一纳管信创和非信创集群,这也为信创过渡和综合选型提供了技术手段。

信创云整体架构可基于飞腾、鲲鹏、海光架构进行构建,平台主要包括IaaS云平台、PaaS云平台、SaaS应用层以及运营服务平台,都统一构建在信创云服务中,实现集约高效和标准化的服务体系。同时也能够支持满足国家安全,自主安全的业务应用和终端的接入。技术中台需屏蔽底层技术差异,支持主流信创架构,为上层应用提供统一承载、管理、运维能力。架构图见图1。

640 (1).png

图1信创云架构

软件定义存储是数据存储技术发展的主要动向趋势之一。软件定义存储的目标是以业务数据类型进行分层设计,利用标准化的信创硬件设施构造存储资源池,打破数据调度壁垒,消除“数据孤岛”,充分利用数据资产创造价值。因此建立和完善软件定义存储平台是信创存储建设的必要措施。

1.适配场景分析

软件定义的分布式存储是根据业务场景进行规划设计的。

表1分布式存储应用场景适配

640 (1).png

2.信创分布式存储规划设计

在当前复杂的外部环境下,企业数据存储平台的“自主可控”重要性尤其突出,承载企业数据资产的关键业务信息系统的国产化进程正在加速。国产化分布式存储软件已能够替代国外传统架构存储,采用国产芯片服务器+国产操作系统+国产分布式存储软件方案已逐渐成熟。软件定义分布式存储能够支持适用于器的可动态创建的持久化存储,可同时支持不同类型应用的存储访问需求,包括容器镜像库如Harbor;SDS可以稳定对接多种容器编排系统,如Rancher,OpenShift,丰富完善的存储高级特性能够满足核心业务的多种数据容灾需求。存储基于CSI接口提供iSCSI和NFS两种容器存储方案,无论是块存储还是文件存储,都可以通过CSI的方式去使用。

640 (1).png

图2信创云原生存储

对于数据库等对于存储性能要求较高的应用,建议应用所在的节点上配置企业级SSD硬盘,并采用Local Path的方式将应用数据存储在本地SSD硬盘上,例如信创数据库、ElasticSearch、MySQL、PostgreSQL等应用。

对于一些小型的数据库或者对于存储性能要求没有那么苛刻的业务应用的数据存储要求,可以采用全SSD或者SSD+HDD的Ceph部署存储提供文件及对象存储服务。

对于文件归档类数据、配置文件、临时文件、离线数据等,可以采用信创文件存储和对象存储。

在落地中,需全面评估信创云对接信创存储如何在数据层实现各生态的适配,真正达到商业可用,信创生态和现有生态如何融合、过渡及迁移。总体来说,信创存储要能够兼容多种自主国产化芯片服务器或通用硬件服务器来组建分布式存储集群;提供块、文件、对象多协议接口能力以满足不同业务场景需要;同时提供跨机房的容灾解决方案满足企业多数据中心的容灾需要。

结束语

通过本议题多位专家的讨论,企业在信创云环境下如何规划数据存储技术路线有了明确的认识。不同的数据存储技术路线,都会涉及及到数据的安全性、性能、可扩展性和成本效益等方面的影响。因此,在选型的过程中,切勿一棍子打死,应根据实际的企业业务需求、业务场景等,有针对性的进行选型对比。

THEEND

最新评论(评论仅代表用户观点)

更多
暂无评论