本文来自微信公众号“光子星球”,【作者】吴先之 吴坤谚。
80、90后对“卡”有着一段特殊的记忆。
30年前,用户玩《魂斗罗》与《超级马里奥》都要用任天堂生产的卡带。一张正版卡带动辄几百元,在那个年代堪称奢侈品。久之,行业形成一种不容商量的规则:游戏跑在谁的硬件上,由卖硬件的人说了算。
后来让产业格局彻底重写的,是PC游戏市场的崛起——一个完全绕过卡带、完全不同于任天堂规则的生态。有的时候,替代一种旧路径的,是一条新通路的诞生。
这段往事,让80、90后意识到,游戏世界原本便是由数字组成的,没有人能够永远靠物理介质的稀缺性,锁住一个产业的未来。
30年后,同一个群体——已过而立之年的那批人——正目睹一个似曾相识的画面。只不过这次卡在产业喉咙里的不是游戏卡带,而是算力。大模型跑在谁的芯片上、谁的框架里,同样由卖算力的人说了算。
OpenAI、Google、Anthropic这些“第一方大厂”手握最顶级的算力卡,跑出了GPT-4、Claude。当高端芯片对华出口限制层层加码,“显卡拜物教”成了一种显性的产业现象——衡量一家公司AI能力的方式,一度收缩为“有多少张卡”。
4月24日,DeepSeek V4发布,而美团LongCat-2.0-Preview也开放测试,“万亿参数俱乐部”中增加了两个中国面孔。两款模型参数规模突破万亿,支持1M上下文窗口。

值得注意的是,DeepSeek V4完成了从英伟达CUDA生态到华为昇腾等国产平台的迁移。美团LongCat-2.0-Preview中则全程在国产算力集群上完成训练,据了解,动用的算力卡规模在5万至6万张级别,这也是目前唯一一个国产卡训练的万亿大模型。
两款万亿参数规模的国产模型,在同一天亮相,似乎指向了同一个方向:离开外部的卡,同样能够建立起可自主运转的生态。
当算力涨价的“稻草”落下
Open AI、Google、Anthropic等公司旗下的产品早已迈入万亿参数规模,而这个“万亿俱乐部”中,绑定N卡及英伟达生态,是一道隐性的门槛。
这类海外巨头每年持续投入大量资金维持算力,有着成熟的商业思考。维持算力可以视为折旧周期内的固定成本,大算力带来更好的模型,通过不同的Tokens计价模型,将成本摊销给使用者。当算力涨价时,对于国内中小开发者而言,价格随之变成了一道更高的门槛。
四月初,这根“稻草”终于压了下来。
首先是Anthropic悄然调整了Claude Enterprise的定价模式。过去,企业客户最高每月为每位用户支付200美元,就能享受一定额度的Token用量,如同吃自助餐,吃多吃少一个价。
现在每月20美元基础费,剩下的按实际算力消耗计费。
软件授权谈判公司Redress Compliance的联合创始人直言,对于重度用户而言,新定价可能导致成本翻倍甚至三倍。一个原本被200美元“包月”覆盖的用户,现在需要掏更多钱。
算力涨价潮正在席卷全球。

而从上市公司财报中也能窥见,面对算力成本的上涨与调用量的增长,企业的腾挪空间越来越小。根据智谱披露的财报显示,2026年一季度智谱的接口调用价格上涨了83%,而调用量的增长速度则是调用价格5倍左右。
价格与需求挤压了国内AI发展,接入了外部算力供应链,意味着国内AI厂商既要在技术参数上追赶,也要在成本结构上被动承受上游的每一次调价。AI Agent时代,全球算力增长已经跟不上需求膨胀,除了算力之外,还得回到模型本身。
算力涨价让Token价格战变得难以为继时,新的共识正在浮现,行业竞争的关键从算力价格转向算力产生的价值。
四月底,两款国产万亿参数大模型DeepSeek V4发布,同一天,美团LongCat-2.0-Preview亦开放测试。据悉,美团LongCat-2.0-Preview测试期间每日千万免费Token的额度,而DeepSeek极致的性价比把大模型的使用成本降至更低的水位。
以DeepSeek V4全系两款模型为例,V4 Flash输入缓存命中分别低至0.02元/百万Tokens,满性能的V4 pro的输入价格仅需要0.025元/百万Tokens。
高效率框架与高效能的模型方案在发布后引发了许多正反馈。
有开发者结合自己的真实使用数据,核算下来可以省下超七成的使用成本。另有用户在社交媒体上提到,自己过去用DeepSeek只能生成四五章小说内容,更新后,已经可以生成近二十章,且模型对于用户习惯和提示词的理解准确性更高,生成的质量远高于过去。
资金与数据的双向反哺
架构创新,是效率追求下的国产万亿参数模型,最先迈出的第一步。
把模型的知识比做图书馆,过去的模型推理需要一次性查阅所有藏书。以美团LongCat-2.0-Preview采用的MoE(混合专家)架构下,模型只需要精准找到对应的书架,调动最相关的几位“专家”即可。如此一来,模型的上限被做大了,单位任务的计算成本却没有线性膨胀,效率也因此获得了释放。
但架构上的节流,只能解决“省”的问题。
众所周知,高端芯片的获取难度,正在成为国产大模型发展最现实的外部约束。以DeepSeek-V4 Pro为例,其发布节奏就一度受到高端算力供给的掣肘。
长期以来,顶级大模型训练几乎默认建立在英伟达GPU与CUDA生态的“高架桥”上。留给国内AI产业的选择并不多。要么接受排队,接受算力供给、价格与节奏都掌握在别人手里的现实,同时尝试对中等规模模型和Agent工程化的探索;要么改走“二级路”,重新铺设一套自己的工程体系,全程基于国产芯片完成训练与推理。
这一系列挑战概括为两个词:速度和路面。
速度指的是最直观的显存容量和带宽限制。相比中等规模模型,万亿参数规模的模型在训练中的并行计算量与显存占用会指数级增长。
至于路面,则指的是万卡级集群长期训练中采用的软件生态。我们熟知的Pytorch训练框架,以及核心算子、并行工具等均是生长在CUDA主导的软件生态之上。在国产芯片集群上训练,工程师需要针对芯片特性重写和优化核心算子,以及处理更多工程细节。
以DeepSeek V4为例,它完成了从英伟达CUDA生态向华为昇腾等国产平台的迁移验证。这里面的难点,不只是底层指令集从CUDA切到CANN,也包括精度对齐、通信机制重构以及并行策略的重写。换句话说,DeepSeek是在底层代码和训练框架层面,为国产算力跑出了产业闭环。

美团LongCat-2.0-Preview则直接将模型放在国产算力上训练。
我们了解到,美团坚持使用国产万卡集群训练模型,是迄今国产算力完成的规模最大的训练任务。在一个还不够平坦的路况下,进行大体量模型的训练,起初势必遇到很多工程难题。
与此同时,针对国产硬件的特点,团队对训练框架和模型结构做了亲和设计。就像给新引擎调配专属燃油和变速箱齿比,美团在国产算力上做到了计算性能的提升。
这种不断踩坑踩出来的工程能力,不仅训练出了LongCat-2.0-Preview,也在美团开源的技术路线下,为国产芯片生态的成熟提供了真实的大规模训练样本和工程反馈。
DeepSeekV4试图证明,国产平台可以接住最先进模型的迁移,美团则试图证明,国产算力已经有能力支撑万亿参数模型的全流程训练与推理。
值得关注的是,美团此前已投资过包括摩尔线程、沐曦股份等至少14家国内的半导体企业,包含多个细分赛道的“隐性冠军”。
算力不应是一种“税”
近段时间,我们能看到不同路线的创新在持续发生。除了万亿参数模型的规模竞速外,有人在多模态融合里寻找突破,有人在端侧轻量化上深耕,也有人基于真实数据集开始着眼于世界模型。
国产算力持续被验证的背景下,中国AI产业不再执着于复刻某一条被验证过的海外路径。玩家们开始相信,当算力自主、架构创新和应用场景形成闭环,国产AI可以不被牵着鼻子走。
推出LongCat-2.0-Preview的美团,有个特殊之处在于过去的业务基础。
王兴曾提出一个清晰的概念:打造物理世界的AI底座。外卖、团购为代表的本地生活服务,为物理世界基础信息提供数据反馈,提升消费体验,也能为商家提效。

这些场景为国产模型和算力提供了长期、连续、真实负载的现实场景。比如一些特殊场景、极端情况下,芯片在空间有限、低功耗要求下进行强化学习和实时推理。
更进一步说,芯片、框架甚至训练推理,都是中国独有的产业AI砖瓦,而让这些砖瓦垒成高楼的,是千行百业有条件拥抱AI。
DeepSeek在CANN框架上重写的每一行代码,LongCat开源给后来者的“地图”,摩尔线程、沐曦的国产GPU流片,华为昇腾系列芯片在工厂质检线上识别出的某个瑕疵——有人在框架层重写算子,有人在硬件端死磕流片,有人在业务一线调试数据。
他们之间,没有统一的指挥中心,但拼在一起,恰好构成了一幅完整的图景。或许还需要漫长的时间,但当这幅拼图完整合拢,国内AI产业也就有了告别“算力税”的资格。
