讨论下一代数据中心网络时,为什么要特关注超融合数据中心网络?

小海鱼足球
数据中心降能耗,常规的做法是降低配电和IT设备的能耗,此外网络的能耗占比一般约为12%。除了降低网络自身能耗外,网络能耗降低有一条更佳路径:实现网络无损,从而带动撬动数据中心整体能效比提升,降低单位算力的能耗。

自工业革命进入4.0阶段,算力已经开始取代电力,成为经济发展最重要的驱动力。牛津经济研究院研究分析表明,数字技术投资每增加一美元,便可撬动GDP增加20美元,投资的平均回报是非数字技术投资的6.7倍。中国信息通信院和国家统计局的研究结果也表明,数字经济对经济增长的贡献率显著高于三大产业对经济增长的贡献。

作为算力的重要组成部分,数据中心网络贯穿数据存储、计算与应用的全流程。在2021数据中心高质量发展大会上,由中国信息通信研究院云计算与大数据研究所发起、ODCC(开放数据中心委员会)组织起草的《超融合数据中心网络白皮书》正式发布。下一代数据中心网络也就是超融合数据中心网络架构,作为下一代数据中心网络发展方向备受关注。

如何理解下一代数据中心网络?在云化升级、存储全闪存化等变革之下,数据中心网络正在向全以太化的超融合架构迈进,实现基于物理网络的全无损以太架构,管控析一体的管理融合,以及全场景的服务化能力融合。

特别值得注意的是,华为已经推出超融合数据中心网络CloudFabric 3.0解决方案,秉承超融合数据中心网络架构的理念,实现了数据的高效流通,可助力企业构建大算力低能耗的网络。

大算力低能耗如何兼得?

算力对于GDP增长有非常强的杠杆效应。而在提升算力的同时,往往伴随着能耗的增加。数据中心是传统的能耗大户,DC能耗占到ICT总能耗的33%,在近三年更是以18%的速度持续增长。

面对绿色生态的约束性指标,数据中心这个传统用电大户何去何从?

数据中心降能耗,常规的做法是降低配电和IT设备的能耗,此外网络的能耗占比一般约为12%。除了降低网络自身能耗外,网络能耗降低有一条更佳路径:实现网络无损,从而带动撬动数据中心整体能效比提升,降低单位算力的能耗。

CEC认证是生态环境部批准设定的国内权威绿色产品认证。华为CloudEngine数据中心交换机已经率先通过了此认证,设备能耗低于业界22%。华为超融合数据中心网络CloudFabric 3.0方案,也始终围绕着大算力低能耗展开。

三大融合应对全以太化演进挑战

数据中心网络从原来IB、FC、以太的多协议模式向全以太化演进的过程中,正在发生四大变革——

▲云计算是数据中心全以太化的首要驱动力

▲存储全闪存化驱动RoCE产业生态发展

▲CPU/GPU去PCIe化,直出以太以获取极致性能

▲IPv6大规模部署,产业政策加速以太化进程

全以太技术的快速发展与成熟,必将使数据中心传统的三张烟囱式物理网络走向统一。

关于数据中心基础设施架构,业界也在不同的层面上进行了持续的探索与尝试。例如在小型数据中心场景中的一体机方案(HCI),简化了网络设计、提升了交付效率。而在本次白皮书提到的超融合数据中心网络,则将融合层面从单机架扩展到多云多场景,实现了更大范围的资源整合。

然而,超融合数据中心网络建设并不是一件很容易的事情。在实现融合的过程中,必须要攻克如下三大挑战:

●以太网的机制是“尽力而为”,天然是丢包的,而随着网络规模的增加,丢包率将呈指数级增长,在HPC和集中式存储等极端性能场景,传统以太无法满足性能要求;

●当新建数据中心规模扩大后,端口、策略等网络对象关系达到上千万级,运维的复杂性指数级增长;

●一体化大数据中心要实现算力灵活调度,跨云业务部署效率也成为数据跨区域流通的关键。

挑战正是攻关的目标和方向。基于业界数年的积极探索和积累,产学研用各方对下一代超融合数据中心网络的构架,已经达成了基本共识,这对于推动超融合数据中心网络的快速发展意义重大。

三大特征包括:

◆全无损以太网络,实现数据承载融合:通用计算、存储、高性能计算统一承载在0丢包以太网技术栈上,TCP、RoCE数据混流运行,打破传统分散架构限制;

◆全生命周期自动管理,实现管控析融合:基于统一数据采集平台,自动驾驶网络技术实现智能运维,打破多工具多平台分散管理限制;

◆全场景服务化能力,实现全场景融合:基于开放底座,实现多行业场景服务化体验融合,打破区域与场景限制。

系统跃迁如何释放价值?

任何网络架构的升级与改造,很重要的目的是提质增效、创造价值。超融合数据中心网络在设计阶段就已经瞄准收益目标,在降低建网与运维成本效果显著。

以以太网丢包问题为例,存在了40多年,以太专家探索了很多路径,但都失败了。0.1%的丢包会导致50%的算力损失。

如何避免0.1%?

华为超融合数据中心网络CloudFabric 3.0方案创造性地将智能算法引入到网络联接中来,用算法代替专家经验实现实时精准控速;为了确保算法可以自适应任何流量场景和模型,除了百万级的真实业务样本外,还加入了千万级的随机样本训练,可以保证在任意场景下网络的0丢包。最终实现无损算法升级,攻克以太网75公里0丢包难题。

规模不变,算力翻番,期间创造的效益可想而知。

如果说解决丢包难题,是技术层面的提升,那么超融合数据中心网络方案提供的全生命周期自动管理、全场景服务化融合等,则实行了系统层面的跃迁,应用后释放出倍增的效能。

■一套系统实现全生命周期自动管理

众所周知,运维效率决定了数据中心的运行效率,因为数据中心的生命周期中80%以上的时间在运维。而在十余年发展史中,仅运营商层面使用过的网络管理工具就有上千种。

网元管理、网络配置、状态监控、数据分析,这四大类工具往往独立运行,只覆盖某个阶段;同时,运维数据和分析结果无法跨工具共享,无法对端到端的故障根因及时分析。因此,尽管有大量的工具,运维人员人工二次分析不能缺失,这时导致业务体验难以管理,进而影响用户体验很重要的原因。

那么,超融合数据中心网络方案如何解决问题?

超融合数据中心网络方案在网络管理层实现了管理、控制、分析能力融合后,基于统一的Telemetry大数据实现网络的管理界面融合,一套智能运维系统可以实现从规划、建设、维护、优化全生命周期管理,减少或者无需人工二次介入。

以业务发放为例,网络部署耗时可从3~5天降低为数分钟,显著提升业务部署效率。

■实现全场景下的网络服务化

在多云场景,多厂商设备配置存在差异,一次跨云业务变更需要分解到多个控制器。跨云业务当前严重依赖人工在多云间进行网络配置,单个应用耗时需要2周。而在云管平台侧则需要同时对接多个接口各异的控制器,对接开发工作量巨大。

超融合数据中心网络方案如何解决问题?

数据保存在私有云,Web、APP等应用部署在公有云,将成为数据中心业务的新常态。如果采用多云业务服务化调度方案,可以替代人工,对多云间的网络进行自动化编排、业务发放、配置仿真校验,则单个应用的开通效率提升40%。

除了优化成本提升效率外,多云算力调度可最大化实现数据要素跨区域流通,满足节能减排、绿色转型的政策要求。

10cc1ff9abd24c50ba6b4889bf9e4457(1).jpg

下一代数据中心网络的价值显而易见,打破协议、管理与场景限制,最大化实现数据的无障碍流动,有效提升算力能效比,显著降低网络建网与运营成本,带来积极的商业价值与社会价值。

超融合数据中心网络架构可显著降低建网与运维成本,对于数据中心绿色节能建设具有重要意义。在此过程中,以华为为代表的业界中坚力量,正在努力打造引领级的超融合数据中心网络方案,为提升数据中心算力、推动数字经济发展,持续提供价值。

THEEND

最新评论(评论仅代表用户观点)

更多
暂无评论