本文来自微信公众号“半导体行业观察”,【作者】邵逸琦。
2025年12月24日,当大多数人仍沉浸在节日氛围中时,英伟达却以约200亿美元悄然完成了一笔分量十足的技术并购。
交易的对象是Groq——这家由前谷歌工程师乔纳森·罗斯创立的AI推理芯片公司,主打名为LPU(语言处理单元)的芯片架构,其设计路径与英伟达长期依赖的GPU体系截然不同。
比交易更耐人寻味的,是典型的“英伟达速度”:从并购敲定到在GTC 2026舞台正式亮相,前后仅用不到四个月。Groq团队负责人甚至将这一过程称为“半导体史上产品化速度最快的案例之一”。

这一速度背后,是清醒的战略判断,英伟达并不是在收编一个竞争对手,而是在为接下来的AI计算重心转移提前落子。
推理经济的崛起
过去几年,衡量AI竞争力的核心坐标是训练算力。谁能堆更多GPU、训练更大规模的模型,谁就站在行业前沿。这一逻辑推动了大量资本涌入Hopper架构、Ampere架构GPU集群,也让英伟达的GPU成为AI基础设施的绝对代名词。
但这一等式正在悄然改变。
据机构数据显示,2026年,推理工作负载将占据全部AI计算需求的三分之二左右,而2023年这一比例仅为三分之一。Gartner预测,55%的AI优化基础设施支出将流向推理侧。此外,推理市场的体量也在快速膨胀,预计从2025年的1060亿美元增长至2030年的2550亿美元,年复合增长率接近20%。
与训练任务相比,推理运行的经济学逻辑截然不同。训练是一次性支出,花钱买权重,而推理则会持续消耗,生产系统中每一次预测都需要完整运行前向传播,理论上占据AI系统生命周期总成本的80%至90%。
更深层的压力来自AI Agent的兴起。当AI从简单的对话问答演变为能够规划任务、调用工具、跨系统执行的自主智能体,每一个推理步骤都意味着大量token生成。一个复杂的代理工作流,token消耗量可能是普通聊天的15倍甚至更多。其往往还会将多个模型调用串联起来,最终成本可能是单次推理的5到10倍。
在GTC 2026主题演讲上,英伟达CEO黄仁勋将这一现象称为“上下文爆炸”,随着历史记录、工具输出和推理步骤反复传递,token总量以指数级增长,推理成本随之急剧上升。
这正是GPU最难解的一道题。
通用引擎遭遇专用挑战
GPU的崛起,根植于其处理并行计算任务的独特优势。大量浮点运算、灵活的动态调度、配合高带宽显存(HBM)实现的极高吞吐,让它在模型训练场景中有着几乎无可替代的地位。
然而训练和推理是两种本质不同的计算方式。训练追求吞吐量,任务可以批量堆叠、并行流水;推理(尤其是实时推理)追求的是延迟,每个token必须尽快产出。GPU的通用架构在推理场景中开始暴露出结构性短板。
从推理流程的内部结构来看,可以将其分为两个阶段:预填充(prefill)和解码(decode)。预填充是计算密集型任务,与训练相似;解码则是内存带宽密集型任务,每生成一个token,都需要将模型的全部活跃参数从内存中流过一遍。这意味着解码对内存带宽的依赖程度极高,而HBM的带宽终究有上限。
另一个角度是成本结构。GPU的物料成本很大程度上集中在HBM堆叠内存和配套中介层上,例如英伟达的Rubin GPU,其大部分成本都花在HBM4内存及其与GPU连接所需的中介层上。对于那些不需要海量参数存储、只需要快速解码的推理场景,这部分投入的性价比极低。
这是一个结构性缺口,靠持续堆叠GPU算力显然是无法填补的。
LPU:为确定性而生
Groq的LPU走的是一条几乎相反的设计路径。
LPU的核心设计哲学是确定性执行。与GPU依赖动态硬件调度、多级缓存层次不同,LPU将控制平面完全交给编译器,在编译器完成所有执行路径的规划,实现精确到时钟周期的可预测执行。
这意味着,在芯片运行之前,推理过程要花多长时间已经被编译器算清楚了。
实现这一特性的关键硬件是巨大的片上SRAM。LP30芯片搭载500MB的片内SRAM,这些SRAM与计算单元之间的内存带宽高达150TB/秒。
相比之下,Rubin GPU搭载288GB的HBM,内存带宽为22TB/秒。LP30的内存容量只有GPU的几百分之一,但内存带宽却高出7倍。
这一优势完美契合了推理的需求。解码阶段的瓶颈不是算力,而是数据流速。权重需要在每个token生成时被快速访问,访存速度越快,单token延迟越低,而SRAM可以用极小的容量换极高的速度,用静态调度换确定性延迟。

在这种设计下,随着更多LPU芯片加入集群,单token延迟会随着系统规模扩展而近似线性下降,这是传统GPU架构极难实现的特性。LPU大规模部署后,整个集群可以作为一个巨型单处理器运作,以极低且稳定的延迟服务高价值用户。
当然,LPU也有明确的局限。500MB的片内SRAM对于万亿参数模型来说远远不够,需要大量芯片协同才能装下完整模型权重。对于单机来说,LPU的经济性也并不出色。它的价值在于在规模扩展时,能够将速度优势兑换成商业溢价,服务那些愿意为极低延迟支付高溢价的用户。
从某种角度来看,GPU是高通量的“脱粒机”,适合处理大批量、多用户并发的推理任务;而LPU则是极速的“单车道”,适合服务极低延迟、高价值、单用户或少量用户的推理场景。
英伟达的选择:异构计算的系统重构
弄明白了GPU和LPU各自的优势边界,就不难理解英伟达在GTC 2026上展示的架构选择了。
Vera Rubin平台整合了七款芯片,包括Vera CPU、Rubin GPU、NVLink 6交换机、ConnectX-9 SuperNIC、BlueField-4 DPU、Spectrum-6以太网交换机,以及新纳入的Groq 3 LPU。这七款芯片协同工作,构成一台大规模预训练、后训练、测试时扩展到智能体式推理、覆盖AI全周期的超级计算机。

其中最具技术含量的创新,是GPU与LPU在推理流水线内部的职责分工。英伟达将推理过程拆解得更加精细:预填充阶段及解码中仍受益于高吞吐的注意力计算继续由Rubin GPU承担,而前馈网络(FFN)的执行则交由LPU处理。这种分工被称为注意力与前馈网络解耦(AFD),是专为压缩解码延迟设计的系统级优化路径。
配备256个LP30 LPU的LPX机架拥有128GB片上SRAM和640TB/秒的扩展带宽。与Vera Rubin NVL72集成后,Rubin GPU和LPU通过对每个输出token的每一层模型进行联合计算,可将解码速度显著提升,每兆瓦推理吞吐量最高可提升35倍,万亿参数模型的收益机会最高可提升10倍。
从性能曲线的角度理解,GPU和LPU的优势区间形成互补。GPU在中低端推理层级(高并发、低成本)提供强大的吞吐能力,LPU则将性能曲线向高端延伸,覆盖那些对单用户延迟要求极端苛刻、愿意支付高溢价的推理层级。
连接这套异构系统的软件层是Dynamo推理框架。Dynamo拥有许多能力特点,其中在异构计算环境下可灵活分配负载,根据请求特征——批次大小、上下文长度、延迟敏感度——在GPU与LPU之间动态路由,从而在整个吞吐与延迟范围内实现更均衡的性能曲线。推理优化的重点从单芯片性能,提升到了系统级资源编排的层面。
存储层的同步演进:NVIDIA BlueField-4 STX全新的存储基础设施
GPU与LPU的协同还不是完整图景。代理式AI的另一个基础设施瓶颈在于存储,长上下文推理需要实时访问海量历史记忆和上下文数据,而传统存储架构的响应速度无法匹配。
NVIDIA BlueField-4 STX机架式架构专为解决这一问题设计。它将BlueField-4处理器与Vera CPU和ConnectX-9 SuperNIC相结合,提供高带宽共享层,针对存储和检索大语言模型和智能AI工作流生成的海量键值缓存数据进行了深度优化,与传统存储相比,每秒可处理的token提升高达5倍。

这一系统通过NVIDIA DOCA Memos软件框架实现专用的键值缓存存储处理,最终目标是在整个数据中心POD范围内实现上下文信息的快速流通,从而加快多轮对话中的AI代理响应速度,提升并行任务的连贯性。存储层的升级,是整个推理基础设施中容易被忽视却至关重要的一环。
协同设计
将以上所有模块拼在一起,英伟达正在勾勒一种分层化的AI计算秩序:GPU继续主导大规模训练与批量推理,承担高吞吐、多用户并发的基础计算任务;LPU专注于解码阶段的极低延迟推理,覆盖高价值的单用户实时交互;Vera CPU则承担系统调度、强化学习环境验证和控制逻辑;BlueField-4 STX负责上下文记忆的快速存取。
Vera CPU拥有88个定制Olympus核心,效率是传统机架式CPU的两倍,速度提升50%,专为智能AI所需的极端利用率提供稳定响应。其重要性在AI Agent时代尤为突出。强化学习和智能AI工作负载需要大量CPU环境来测试和验证模型的行为,CPU的规模与质量直接影响AI系统的反馈速度。
这种分工体系的背后,是对不同计算负载特性的精准匹配:训练与批量推理的高吞吐特性对应GPU,解码延迟敏感性对应LPU,系统级调度与环境模拟对应CPU,上下文持久化对应存储加速层。每种计算单元都被部署在最能发挥其价值的位置,而不是用一种硬件强行覆盖所有场景。
这一协同设计也在重塑AI基础设施的成本模型。通过让不同负载匹配最合适的硬件,整体功耗和每token成本都能大幅改善。与Blackwell平台相比,Vera Rubin NVL72使用四分之一数量的GPU即可训练大型混合专家模型,每瓦推理吞吐量提高10倍,每个token的成本降至其十分之一。
竞争格局的重塑
英伟达将Groq纳入麾下,也彻底重塑了外部竞争格局。
在低延迟推理领域,Cerebras和SambaNova等公司已经构建了类似逻辑的架构,以SRAM为核心实现高速推理。英伟达通过收编Groq,将这一技术路线直接整合进自己的平台,同时封堵了潜在的市场缺口。
亚马逊与Cerebras宣布合作,将AWS的Trainium-3加速器与Cerebras的晶圆级加速器结合部署,逻辑与英伟达的GPU-LPU系统如出一辙。这说明异构推理架构并非英伟达独有的判断,而是行业内已经形成的技术共识。差别在于谁能以更完整的软件栈、更大规模的生态和更快的量产节奏建立优势。
英伟达在这场竞争中握有显著的结构性优势。不只是芯片本身,而是从CUDA生态、Dynamo调度框架、NVLink互连,到合作伙伴体系和模型开发者关系的整体绑定能力。
黄仁勋甚至将Groq与Mellanox的并购相提并论:Mellanox的技术成为NVLink和InfiniBand的基础,为英伟达构筑了AI集群互联的护城河,而Groq的LPU,正在以同样的方式成为推理基础设施的内嵌组件。
写在最后
放在更长的时间维度下审视,英伟达的这轮技术布局,指向的是一个更清晰的趋势:AI正从实验室中的研究工具,转变为支撑产业运行的基础设施,其计算价值的重心也随之从“短期建造”转向“长期运行”。
黄仁勋在GTC上明确划定了这种分工,纯粹的高吞吐训练与批量推理继续由Vera Rubin承担;实时代理式AI、对话推理和低延迟交互工作负载,则需要LPU的加持。
这意味着,行业竞争的核心指标正在迁移。从单芯片的FLOPs比拼,转向系统级架构整合与调度效率的较量。谁能更有效地将不同计算范式无缝编排在一套基础设施中,谁就能在推理经济时代获得更强的定价权和平台地位。
GTC 2026上展示的三套新系统,共同指向同一个信号:英伟达已不再只是GPU供应商,而是在向覆盖推理优化、CPU编排和存储层的全栈AI基础设施平台演进。
从Hopper到Blackwell再到Vera Rubin,每一代平台都在扩展英伟达的覆盖边界。而这一次,LP30的加入意味着英伟达第一次主动引入了一个与GPU架构哲学根本不同的计算单元,不是作为补充,而是作为整个系统设计的有机组成部分。
当GPU不再够用,英伟达给出的答案,是让不同逻辑的芯片在同一个框架下找到各自的最优位置。这种选择,标志着AI基础设施竞争从单一硬件的极限堆砌,正式进入异构协同的新阶段。
