AI 计算架构演进:纵向扩展与横向扩展及光模块选型

在AI计算集群的设计中,Scale-Up(纵向扩展)与Scale-Out(横向扩展)从一开始便有着不同的目标,其评估标准也不处于同一维度。本文将阐述Scale-Up与Scale-Out的内涵,并指导如何选择合适的光模块。

本文来自微信公众号“千家网”,来源:QSFPTEK。

2026041316492761767.jpg

随着大规模模型参数量迈入“万亿级”门槛,AI集群的规模也逼近数十万颗GPU的量级,底层的计算基础设施正经历一场重大的架构转型。AI计算领域的两大主流网络模型——Scale-Up(纵向扩展)与Scale-Out(横向扩展)——虽沿着不同的技术路径演进,但在实际应用中,二者正逐渐在关键节点上呈现出融合之势。

这种变革本质上是“低延迟与高扩展性”同“高可靠性与成本控制”之间反复权衡取舍的结果。与此同时,光模块技术的持续演进(如LPO、NPO和CPO)正日益深刻地重塑着系统设计格局。

Scale-Up与Scale-Out:两条路径的差异与权衡

在AI计算集群的设计中,Scale-Up与Scale-Out从一开始便设定了不同的目标,其评估标准也不处于同一维度。二者可被视为两种截然不同的技术进路。

Scale-Up:强调低延迟与强一致性的紧耦合架构

Scale-Up更侧重于对单节点计算能力的延伸;本质上,它是在现有GPU架构内部实现一种“横向整合”。通过构建高度耦合的计算单元,多个GPU的本地显存被抽象整合成一个统一的逻辑空间,从而使计算核心在访问远端显存时,能够获得近乎访问本地HBM(高带宽显存)的体验。这种“近显存语义”的设计理念,不仅旨在实现规模的扩展,更致力于最大限度地缩短计算与数据之间的距离,在确保高一致性与高稳定性的同时,将延迟降低至微秒级以下。

Scale-Out:面向可扩展性的分布式计算模型

相比之下,Scale-Out更像是通过网络将海量的分散式计算资源组织成一个有机整体,从而实现计算能力的汇聚。其典型的实现方案基于两层或三层Clos架构,能够将数万甚至更多颗GPU接入同一个训练集群,以支持数据并行、流水线并行等多种训练模式。这种方案的核心诉求在于可扩展性与成本控制:它旨在确保系统始终保持高可用性,能够随着业务需求的增长而弹性扩容,并能与现有的软硬件环境实现良好的兼容与协同。

总体而言,Scale-Up的核心在于提升“单体能力”,旨在实现极致的性能表现与超低的网络延迟。另一方面,Scale-Out模式的核心在于“扩展效率”,旨在确保大规模集群的顺畅运行。前者聚焦于高性能计算中的核心单元,而后者则构成了大规模训练与推理的基础网络。在实际的AI基础设施中,这两种模式往往共存并相互补充。

当前演进:Scale-Up架构变革与Scale-Out简化趋势

近年来,Scale-Up(纵向扩展)与Scale-Out(横向扩展)技术正经历快速演进,各大领先厂商已摸索出切实可行的落地实施方案。其核心目标在于:在大幅提升系统性能的同时,有效降低整体架构的复杂性。

Scale-Up:从机箱式架构迈向多形态共存,224G互连技术成关键节点

针对业务增长需求,早期的解决方案大多聚焦于“机箱式超级节点”(Chassis-based SuperNodes)架构。该架构将计算资源高度集成于单一系统之中,并通过高速互连链路实现资源互通。此类方案尤为注重系统的稳定性与一致性,其技术实现通常采用“线缆背板+L1/L2交换”的组合模式:机箱内部的互连主要依赖电信号连接,以确保极高的数据带宽密度;而跨机箱的系统扩展则主要通过光互连技术来实现。

如今,224G光互连技术正逐步成为Scale-Up应用场景下的主流首选。从成本模型的角度来看,在未来三到五年内,1.6T光模块的市场价格预计将维持在800G光模块价格的1.2至1.4倍左右。无论采用LPO(线性直驱)架构还是传统的DSP(数字信号处理)架构,这一成本差异均处于可控且易于消化的范围内。相比之下,若继续沿用112G技术,往往意味着在实现同等带宽需求时需要铺设更多的光纤线缆,从而导致最终的整体成本反而更高。综合考量带宽性能、功耗水平以及布线复杂性等诸多因素,224G解决方案无疑是更具长远价值的优化选择。

业界正紧随这一趋势,并已着手开发相关产品,例如QSFPTEK推出的支持1.6T速率的OSFP系列模块(涵盖2×DR4和2×FR4等规格)。这些产品主要旨在满足未来超级节点架构对高带宽、低延迟的严苛需求。同时,这些产品也助力数据中心为迈向下一阶段的规模化发展做好充分准备。

横向扩展(Scale-Out):从三层架构到两层架构,网络结构日趋扁平化

横向扩展架构的一个显著变化在于,其整体设计理念日益强调“简化”。此前普遍采用的三层Clos网络架构,正逐步被两层Clos架构所取代。通过减少中间层级,网络路径变得更为直接,从而有效降低了系统的整体复杂度。在这一设计框架下,即使是面向数十万颗GPU规模的训练集群,也能在保持极高可扩展性的同时,将网络建设成本控制在合理范围内。

这一变革在很大程度上归功于交换芯片性能的显著提升。随着端口规模的持续扩大——例如交换芯片的基数(Radix)已提升至512个端口——两层Clos网络架构已能直接支撑超过10万个节点的规模;在某些特定的设计模型中,甚至能覆盖约13万张加速卡,且无需额外增设核心交换层。这意味着大型AI集群在进行规模化扩展时,既能维持高带宽密度,又能保持网络拓扑结构的清晰与简洁。

多平面网络(Multi-Plane Networks):通过多平面设计缓解带宽压力

在此基础之上,部分厂商已开始探索全新的网络组织与构建模式。例如,相关研究中所提出的“多平面架构”(Multi-Plane architecture)便是一个典型的创新方案。在该方案中,AI-NIC(人工智能网络接口卡)通过多个高速端口,同时接入不同的Clos网络平面;具体而言,它利用四个200G接口分别连接四个相互独立的网络平面,并在数据发送端采用“轮询”(Round-robin)机制,将同一数据流分发至这四个不同的网络平面中传输。

而在数据接收端,一套支持“乱序写入”(Out-of-order writes)的数据处理机制负责对来自不同路径的数据进行重组与还原,从而确保单一的网络链路不会成为整个数据传输过程中的性能瓶颈。在横向扩展(Scale-Out)场景下,该方法提升了单颗GPU的带宽利用率,在部分测试模型中实现了超过95%的整体利用率。

从发展趋势来看,横向扩展的重心已不再局限于单纯的规模扩充,而是旨在通过结构优化与网络设计创新,在超大规模AI集群中实现带宽、效率与成本之间更为合理的平衡。

光模块选型趋势:LPO/NPO日渐受捧,CPO渐趋式微

在Scale-Up(纵向扩展)和Scale-Out(横向扩展)这两种架构中,光模块不仅充当着连接介质的角色,更直接影响着系统的延迟、功耗及链路稳定性。因此,针对光模块的封装形式选择,不同的技术路线正呈现出日益显著的差异。LPO、NPO与传统基于DSP的解决方案之间的区别正变得愈发清晰,而CPO的受关注度则相对有所下降。

Scale-Up架构:低延迟方案首选LPO/NPO

在系统进行纵向扩展(Scale-Up)的应用场景中,核心目标在于降低系统延迟与功耗。这一需求使得不含DSP的LPO或NPO解决方案日益受到青睐。这类光模块通过简化信号处理路径,大幅降低了自身的能耗。例如,采用LPO方案的800G光模块功耗约为6W,相较于通常功耗在15W左右的传统DSP方案产品,这一能效表现实现了显著的提升。

与此同时,DSP在数据处理环节的参与度降低,也随之减少了链路延迟。单向延迟可缩短数十纳秒,而往返延迟的缩减幅度则更为显著。这些特性使其更契合“短距离、高一致性”场景下的纵向扩展(Scale-Up)需求;部分专为AI数据中心优化的LPO产品,正是围绕这些关键指标进行设计的。

横向扩展(Scale-Out):DSP架构仍是主流之选

然而,在系统进行横向扩展(Scale-Out)的环境中,情况则截然不同。集成数字信号处理器(DSP)的光模块在处理大规模网络连接及长距离传输方面表现更为出色。正因如此,它们依然是该场景下的首选方案。

一方面,在纠错控制方面,DSP能够支持更为复杂的正向纠错(FEC)机制,从而使链路在经过纠错处理后实现极低的误码率,使其非常适用于长距离传输场景。相比之下,LPO/NPO光模块在这方面的能力相对有限,往往难以满足跨数据中心互联或10公里级传输链路对稳定性的严苛要求。

另一方面,大规模集群通常涉及多家厂商设备的混合部署,这对设备间的互操作性提出了更高的要求。基于标准协议(如IEEE 802.3)的DSP光模块在跨厂商兼容性方面已发展得相当成熟;而LPO/NPO的相关标准目前仍处于演进阶段,其生态系统尚未实现完全统一。

总体而言,这两条技术路线的定位已十分清晰:纵向扩展(Scale-Up)场景通常采用LPO/NPO技术,以实现更低的延迟和功耗;而横向扩展(Scale-Out)场景则继续依赖DSP架构,以确保长距离传输能力及系统的兼容性。尽管二者的实现路径各异,但在带宽演进这一共同目标上却殊途同归——即均致力于向单通道224G的速率迈进。

集成与实施的真正挑战:机遇与局限并存

当Scale-Up(纵向扩展)系统的高可靠性与Scale-Out(横向扩展)系统的大规模可扩展性开始交汇时,“融合网络”的发展方向便显得顺理成章。然而,从实验阶段迈向大规模部署,其间仍横亘着几道无法回避的障碍。

架构差异:统一内存语义与消息语义的难题

这两种系统运作于截然不同的层面。Scale-Up模式类似于“内存语义”,即GPU访问远程资源的一种方式;这种机制使得所有设备之间能够实现高速互联与通信。相比之下,Scale-Out系统则构建于“消息语义”之上,主要利用RDMA等机制进行数据的收发,本质上属于一种显式通信模型。由于两者在系统设计与构建理念上存在根本性差异,因此,将两者集成绝非仅仅确保它们之间能够相互通信那样简单,其复杂程度远超想象。

可靠性路径的不一致:如何引入稳定的链路

为了确保设计的可靠性,Scale-Up系统通常采用“线缆背板+交换架构”的组合模式,旨在降低链路故障的风险,并将关键路径的可靠性维持在极高的水平。与此形成鲜明对比的是,Scale-Out系统通常依赖光模块来实现互联。若要实现两者融合,部分Scale-Out流量必须被重定向至Scale-Up系统所具备的高可靠性链路上,这就要求对现有的网络拓扑结构进行重构。对于那些拥有数万甚至数十万块计算卡的集群而言,实施此类调整本身就是一项极其复杂的系统工程。

跨厂商协作:标准与生态系统依然碎片化

融合网络不仅仅是一个架构层面的问题,更涉及广泛的行业协作。在交换芯片、GPU和光模块之间,亟需实现更紧密的技术标准协同。例如,LPO(线性直驱光模块)相关的解决方案目前仍有赖于统一规范的进一步完善,以确保实现跨厂商之间的互操作性。与此同时,基于内存的交换架构也必须适应不同GPU厂商的接口实现方案。当前,各头部厂商主要专注于构建各自独立的生态系统,协议与实现路径尚未完全统一,这在一定程度上减缓了网络融合的步伐。

围绕上述议题,一些关键问题正浮出水面:LPO是否有机会在互操作性方面取得突破,进而演化为一种更具普适性的光互连解决方案?内存语义与消息语义能否在软件层面实现深度融合,从而使系统兼具低延迟与高扩展性这两大优势?

可以肯定的是,围绕计算基础设施的竞争已步入一个更深层次的阶段。光模块技术、网络架构以及行业协作模式的每一次调整,都将直接影响最终的竞争格局。与其简单地在两条技术路径之间做出非此即彼的选择,更为现实的发展方向或许是:在同一套基础设施框架内,使不同的系统能够实现协同运作。顺应这一趋势,诸如“Scale-Across”之类的理念也应运而生,被视为连接上述两种模式的一种过渡性形态。

THEEND

最新评论(评论仅代表用户观点)

更多
暂无评论