本文来自微信公众号“半导体行业观察”,编译自theregister。
在世界最强大的超级计算机中,排名前十的计算机中有九台是由GPU驱动的,但这种情况可能不会持续太久。
由于英伟达等芯片制造商优先考虑AI FLOPS而不是科学计算中使用的超精确浮点运算,美国国家实验室正在转向新的芯片架构来满足其FP64需求。
候选产品中包括NextSilicon的Maverick-2,这是一款数据流处理器,其设计初衷就是为了满足美国能源部最重要的模拟中常用的64位浮点运算。
尽管名称如此,美国能源部关注的远不止美国的电网。它运营着世界上一些规模最大的、公开为人所知的超级计算机,这些计算机负责从模拟核武器临界时刻的物理特性、生物武器防御到公共卫生和安全等方方面面。
自Titan超级计算机于2012年首次亮相以来,越来越多的超级计算机开始采用英伟达的GPU,而最近又开始采用AMD的GPU。
但桑迪亚国家实验室与Penguin Solutions和NextSilicon合作建造的新型Spectra超级计算机并非如此。
与Frontier或El Capitan等百亿亿次级系统相比,Spectra的体积非常小。这台机器只有64个节点和128个NextSilicon的“运行时可配置”加速器。
但规模并非重点。Spectra是NextSilicon公司Maverick-2芯片的测试平台。本周,桑迪亚国家实验室对这款芯片给予了高度评价,宣布这款大型芯片已满足所有系统验收要求,为未来将其部署到更大规模的系统中铺平了道路。
不是另一个GPU
尽管与英伟达的B200有一些相似之处,但Maverick-2本质上却截然不同。NextSilicon的芯片并没有采用目前大多数CPU和GPU所依赖的标准冯·诺依曼计算架构,而是采用了一种可重构数据流架构。
处理器的两个计算芯片构成了一个由算术逻辑单元组成的网格,这些单元以图状结构互连。每个单元在运行时被配置为执行特定的操作,无论是加法、乘法还是其他逻辑运算。
但这款芯片真正的诀窍在于数据流和计算的重叠。数据一旦到达流水线中的下一个单元,就会立即进行计算,无需等待加载/存储操作来重新排列数据。
据NextSilicon称,这显著提高了芯片在实际工作负载中的性能和效率。
数据流架构并非新生事物。Groq、Cerebras和SambaNova都曾基于此概念制造过芯片。然而,所有这些设计都旨在用于人工智能推理或训练。NextSilicon的产品是我们所见到的少数几个面向高性能计算(HPC)的产品之一。
数据流的编程难度众所周知,这很可能是为什么围绕数据流构建芯片的芯片初创公司大多将其作为托管或白手套服务提供,而不是出售裸机服务器的原因。
NextSilicon并没有尝试将工作负载移植到自家芯片上运行,而是开发了一个编译器,声称该编译器能够让任何现有的C、Python、Fortran或CUDA代码库在其芯片上运行。据我们了解,其工作原理是首先在CPU上运行这些工作负载。然后,编译器捕获计算图,将其映射到芯片,并进行优化以最大限度地提高性能。
借助Spectra,桑迪亚国家实验室现在已经验证了三个关键工作负载下的部件性能:高性能共轭梯度(HPCG)基准测试、LAMMPS分子动力学测试套件和Sparta蒙特卡罗模拟套件。
人工智能正在改变GPU
NextSilicon专注于高性能计算,这与Nvidia的下一代GPU形成了鲜明对比。
该公司将于今年晚些时候推出的Rubin GPU承诺提供海量的内存带宽和高达50 petaFLOPS的FP4计算能力。这使得这些芯片成为人工智能推理和训练工作负载的有力竞争者,这或许也是美国能源部将其部署在劳伦斯伯克利国家实验室的Doudna超级计算机等系统中的原因。
虽然FP64计算对于许多现有的科学工作负载仍然具有相关性,但对于AI工作负载而言,Nvidia的GPU对美国实验室来说仍然具有相关性。
然而,所有这些AI浮点运算能力的提升都是以牺牲硬件FP64向量和矩阵运算性能为代价的。Rubin的最高浮点运算能力仅为33万亿次浮点运算/秒,甚至比英伟达近四年前的H100还要慢。
但这并不意味着它不适用于科学计算。对于像高性能Linpack(HPL)这样矩阵密集型工作负载,英伟达采用了一种颇具争议的Ozaki方案变体,该方案使用较低精度的数据类型来模拟FP64计算。
英伟达声称,采用这种方法,Rubin可以实现高达200 teraFLOPS的FP64矩阵运算性能。我们今年早些时候深入研究了英伟达的模拟FP64算法,但可以肯定的是,它并不完美。虽然它在某些高性能计算工作负载中展现出了潜力,但在其他工作负载中,尤其是在计算流体动力学等向量密集型工作负载中,它几乎没有任何优势。
巧合的是,后者正是NextSilicon一直关注的那种工作负载。
我们目前还没有NextSilicon硬件的系统级基准测试数据,更不用说Spectra了,但据称单个Maverick-2处理器可以提供约600 GigaFLOPS的FP64 HPCG计算能力。这家初创公司声称,这种性能与领先的GPU大致相当,而功耗却只有它们的一半。
虽然英伟达在其最新一代GPU中显然优先考虑AI计算,但AMD采取了不同的方法。
与Rubin一样,AMD的新款MI455X加速器也针对AI推理和训练进行了优化,但这只是AMD在台积电工厂生产的众多GPU版本之一。
对于MI430X,AMD将原本用于人工智能的计算芯片替换为专为高性能计算(HPC)设计的芯片。本月初,我们了解到这款芯片将为美国能源部即将推出的Discovery超级计算机和欧洲的Alice Recoque超级计算机提供高达200万亿次浮点运算/秒(200 teraFLOPS)的峰值FP64运算能力。
谁还需要独立GPU呢?
像NextSilicon这样的芯片初创公司仍需证明其芯片能够扩展到更大规模的系统。但是,在太平洋彼岸,中国已经证明,至少在科学计算领域,它并不需要GPU就能与西方最顶尖的超级计算机竞争。
中国历来有专门研发小型芯片以提升国家超级计算能力的传统。
有些系统,例如神威·太湖之光超级计算机,使用了定制的多核处理器,例如260个定制的RISC处理器。另一些系统,例如天河二号A超级计算机,则使用了自主研发的数字信号处理器(DSP)Matrix 2000进行FP64计算。
最近,我们听说了一台名为“LineShine”的新型超级计算机,据报道,它与“太湖之光”类似,使用了47000个定制CPU,预计其FP64运算能力将达到2 exaFLOPS。当然,由于中国不再参与全球最快超级计算机500强(Top500)的年度排名,我们可能永远无法得知确切结果。
中国使用小型芯片的部分原因是由于美国对该地区高端加速器的销售实施了贸易限制。即使在仍然合法的地区,这些芯片也已成为北京供应链的一个薄弱环节。事实上,美国政府禁止英特尔向中国出售其至强融核处理器的决定,推动了Matrix 2000的研发。
在美国,更大的挑战或许在于与芯片设计公司的股东竞争。人工智能已使英伟达成为全球市值最高的公司;相比之下,高性能计算仍然是一个重要但小众的市场。
