AI基础设施遭遇芯片瓶颈,算力扩张面临新挑战

DataCenterKnowledge
AI行业此前一直担忧电力短缺问题,如今芯片供应不足的威胁可能更为紧迫。美国新安全中心(CNAS)最新报告指出,半导体制造能力——涵盖先进逻辑芯片、高带宽内存(HBM)及封装工艺——已无法跟上AI需求增速,制约着超大规模数据中心的扩张步伐。

本文来自至顶网(ai.zhiding.cn),来源 | DataCenterKnowledge。

AI行业此前一直担忧电力短缺问题,如今芯片供应不足的威胁可能更为紧迫。美国新安全中心(CNAS)最新报告指出,半导体制造能力——涵盖先进逻辑芯片、高带宽内存(HBM)及封装工艺——已无法跟上AI需求增速,制约着超大规模数据中心的扩张步伐。分析师指出,HBM和DRAM是当前市场最紧张的供应环节,AI现已消耗全球大部分DRAM产能。与此同时,电力与芯片两大瓶颈正同步收紧,给AI基础设施建设带来前所未有的复杂挑战。

AI行业过去两年一直在警告电力供应短缺的问题,但如今,芯片短缺可能比电力更先成为瓶颈。

美国新安全中心(CNAS)发布的一份新报告指出,半导体制造产能——涵盖先进逻辑芯片、高带宽内存(HBM)及封装技术——已无法跟上AI需求的增长步伐,这可能会拖慢下一波超大规模数据中心扩张的节奏。

报告明确指出:"全球领先的AI企业正面临芯片供不应求的困境。"报告将AI芯片生产描述为"制约AI算力建设速度的核心瓶颈"。

据估计,微软、亚马逊、Alphabet、Meta和甲骨文2026年的资本支出总额可能达到7000亿美元甚至更高,其中大部分资金将流向AI系统、数据中心及相关基础设施。然而,这股投资浪潮正与一条无法同步扩张的半导体供应链形成正面碰撞。

这一局面与2024年及2025年初的情形截然相反。彼时,运营商常常面临GPU已到位、但电力基础设施滞后无法开机的尴尬处境。微软CEO萨蒂亚·纳德拉曾形容:"库存里放着一堆芯片,却没有足够的电力来驱动它们。"

这种供需错配已在市场上清晰可见。超大规模云服务商持续加快基础设施投入,但数十亿美元的AI算力资源仍处于闲置或"搁浅"状态。

而如今,压力正进一步向上游的半导体供应链传导。

电力与芯片,两条不同节奏的赛道

HyperFrame Research半导体与深科技分析师斯蒂芬·索普科表示,行业目前面临两个独立的物理层面问题,且演进节奏差异悬殊。

"短期来看,硅是最核心的制约因素;长期来看,电力才是根本瓶颈。"索普科表示。

电力短缺涉及发电项目、输电升级、变压器交货周期、燃气轮机交货周期以及并网排队等多个环节,这些系统的扩容往往需要数年乃至数十年时间。

芯片生产的扩张速度虽然更快,但仍难以跟上超大规模AI需求的增长。

索普科指出,CNAS报告与台积电、美光、SK海力士、英伟达和博通近期的业绩沟通内容均指向同一结论。

报告认为,AI算力需求目前"已超出许多芯片制造商的预测"。

这种压力远不止于GPU制造本身。现代AI集群依赖一套高度耦合的制造体系,涵盖先进封装、高带宽内存(HBM)、网络芯片及前沿晶圆代工产能。供应链中多个环节已出现严重短缺。索普科将HBM和DRAM列为当前市场最紧张的压力点,并指出AI目前已消耗全球大部分DRAM产能。

研究机构Epoch AI估计,AI芯片的内存带宽每年增长约4.1倍,充分说明AI需求的加速之猛。

与此同时,HBM生产消耗的晶圆产能远高于传统存储芯片,随着超大规模云服务商扩大AI集群规模,供应进一步趋紧。

在先进逻辑制造领域,产能同样承压明显。据业内报告显示,台积电先进3纳米制程产能在AI需求激增的背景下持续处于高位利用状态。

CNAS报告还将先进封装列为另一重大压力点,原因是各大超大规模云服务商正竞相部署英伟达Blackwell系统及下一代加速器。

OpenAI CEO萨姆·奥特曼今年早些时候直言不讳地总结道:"现在的瓶颈,还是芯片。"

AI扩张触碰物理极限

与此同时,AI扩张计划还在持续升级。OpenAI、甲骨文、软银及Stargate计划相关合作方已公布大规模部署方案,预计将消耗前所未有的GPU及配套硬件资源。各大超大规模云服务商也在加大对定制芯片平台的投入,例如谷歌的TPU以及亚马逊的Trainium和Inferentia芯片,以期降低对英伟达供应链的依赖。这些举措或许能在一定程度上缓解采购压力,但对于整个AI硬件栈在制造、封装和内存方面的广泛短缺,作用依然有限。

半导体制造的扩产速度远不及软件迭代。新晶圆厂的建设需要数年时间,洁净室、专用工具及先进封装产线的配套更进一步拖慢扩张节奏。

"未来12至24个月,问题不在于硅是否会制约扩张,而在于它肯定会。"索普科表示。他同时指出,这些供应压力正在重塑部署时间表——"时间表是围绕芯片在弯曲,而不是电力"。

研究机构SemiAnalysis估计,到2026年,内存支出在超大规模云服务商AI总支出中的占比可能从2023至2024年的约8%攀升至约30%,这一变化源于HBM短缺在供应链中的连锁反应。

当然,这并不意味着电力短缺问题已经消失。主要数据中心市场的电力公司仍在持续预警AI驱动的负荷增长。并网排队依然拥堵,输电升级、审批延迟和发电机采购问题仍在拖慢部署进度。

行业似乎正进入多重瓶颈同步收紧的阶段。在部分市场,电力供应仍主导着部署节奏;在另一些市场,芯片供应则决定着运营商将新集群上线的速度。对于试图以超大规模速度扩张AI产能的开发商而言,这造成了更为复杂多变的规划环境。

一旦GPU交付出现延误,运营商就面临"机架建好了、硬件跟不上"的风险,资本持续消耗,机架却可能空置。

最终,AI建设的走向将越来越多地取决于一套相互关联的物理系统——从变电站、输电走廊,到内存晶圆厂和先进封装产线,每一环都牵一发而动全身。

Q&A

Q1:AI芯片短缺的主要瓶颈在哪里?

A:目前AI芯片供应链中最紧张的环节是高带宽内存(HBM)和DRAM,AI已消耗全球大部分DRAM产能。此外,先进封装和台积电3纳米制程产能也处于高位利用状态。与电力基础设施扩容需要数年不同,芯片制造扩产虽然更快,但仍无法匹配超大规模AI需求的增长速度。

Q2:超大规模云服务商2026年的AI资本支出预计有多大?

A:据估计,微软、亚马逊、Alphabet、Meta和甲骨文2026年资本支出总额可能达到7000亿美元甚至更高,其中大部分资金将用于AI系统、数据中心及相关基础设施建设。这一庞大的投资规模正与无法同步扩张的半导体供应链形成直接碰撞。

Q3:超大规模云服务商如何应对对英伟达芯片的依赖?

A:各大超大规模云服务商正在加大对自研定制芯片平台的投入,例如谷歌的TPU以及亚马逊的Trainium和Inferentia芯片,以期降低对英伟达供应链的依赖。但研究人员指出,这些举措对于缓解整个AI硬件栈在制造、封装和内存方面的广泛短缺,作用依然十分有限。

THEEND

最新评论(评论仅代表用户观点)

更多
暂无评论