本文来自微信公众号“硅星人Pro”,【作者】周一笑。

上周,纽约时报报道了硅谷一个新风气叫tokenmaxxing,Meta和OpenAI的工程师在内部搞token消耗量排行榜,比谁烧得多。黄仁勋在GTC 2026上更激进,提议企业给工程师发token预算,作为工资之外的第二份薪酬。
OpenAI的数据则显示,过去一年企业客户的推理token消耗量暴涨了约320倍。
需求侧在爆炸。供给侧呢?
黄仁勋在同一场keynote上搬出了Tokenomics这个概念,把它从加密货币的语境里拎出来,重新定义为AI推理的经济学。核心指标叫Tokens per Watt,衡量每瓦特电力能产出多少token。他说推理拐点已经到了,NVIDIA预计Blackwell和Vera Rubin芯片订单量到2027年将达到1万亿美元。
国内大模型厂商一直在讲类似的事情,只是换了说法叫“推理成本”或者“token单价”。不管哪种说法,指向的问题是一样的,当token变成AI时代的水电煤,谁来建发电厂和电网?
过去三年,行业给出的答案是,建更大的数据中心,塞更多的GPU。这在训练时代完全成立。但推理和训练的逻辑不同。训练一个模型是一次性工程,推理要做几十亿次,而且对延迟极度敏感。当推理请求像洪水一样涌来,把所有GPU集中在几个超大数据中心里,可能恰恰成了瓶颈。
瓶颈不在算力,在物理。具体来说,在光速。
推理时代撞上“光速墙”
在今年GTC上,有一家公司对这个问题给出了非常系统的回答。
Akamai,国内读者可能不太熟悉这个名字,但在海外,它是CDN概念的开创者,也是目前全球最大的分布式计算平台,拥有业内最庞大的边缘节点网络。1998年成立,全球前十的视频流媒体平台、游戏公司、银行基本都是它的客户。全球拥有超过4400个边缘入网点,覆盖130多个国家,承载全球近三分之一的互联网流量。
这家公司在近三十年里经历了三次转型,从CDN到安全,再到云计算和AI。今年GTC上,它带来了两个session,核心主题只有一个,为什么AI推理必须走向分布式。
Akamai CTO Office的SVP Andy Champagne在session上描述了一个“个人AI导播”的场景,非常有画面感。一场F1比赛有20多个4K机位同时在拍,传统做法是导播间一个人切镜头,几百万观众看到的画面一模一样。但如果每个观众都能看到根据自己偏好定制的直播流,喜欢的车手、偏爱的镜头角度,那就需要在边缘实时合成个性化的视频。几百万路不同的4K视频流,不可能从一个数据中心统一往外推。

类似的逻辑出现在越来越多的实时场景里。
游戏NPC需要在50毫秒内响应,超过这个阈值玩家体感明显卡顿。Akamai产品管理VP Shawn Michels在另一个session举了实时广告插入的例子,从扫描视频、识别广告位、竞价、生成个性化广告到拼回视频流,整条链路的预算只有100毫秒。这恰恰是Akamai的先天优势所在,它在全球已有超过4400个边缘节点,这种“就近处理”的能力不是纯云厂商从零搭建能轻易追上的。
同样的延迟压力还存在于AI语音助手、电商推荐引擎、智能试衣间、自动驾驶传感器处理和工业产线质检等场景中。AI一旦嵌入实时应用,就必须继承那个应用原本的延迟要求。
物理定律不会因为GPU更快就网开一面。光在光纤中每秒约跑20万公里,从伦敦到美东数据中心单程延迟约28毫秒,往返就是56毫秒。从东京出发更远,往返约134毫秒。这还没算任何计算时间。
回头看上面那些场景的延迟要求,不难理解为什么把推理全部扔到少数几个集中式数据中心里是行不通的。
延迟之外还有带宽。Andy在session里算了一笔账,同样1GW的算力,如果集中在一个数据中心用Blackwell做视频推理,出口带宽需求是75 Tbit/s。分布到20个区域节点,每个只需3.75 Tbit/s。集中式的出口流量是分布式的20倍,背后的网络成本差距不言而喻。
如果换成下一代Vera Rubin,集中式的出口带宽更是飙到135 Tbit/s。芯片越快,集中式架构的出口瓶颈反而越严重。
在同一个session上,Comcast负责AI与边缘计算方向的嘉宾从排队论的角度做了更严谨的分析。在相同GPU、相同模型的条件下,集中式和分布式部署之间仅仅14毫秒的往返延迟差异,就导致了约30%的GPU利用率差距。
他的原话是,“这是物理定律层面的优势,没法靠batching或者提高tokens/s来弥补。”

一个近三十年的伏笔
Andy在session上做了一个很有意思的类比,把AI的发展时间线和互联网做对齐来看。互联网的普及率已经超过95%,AI目前大约只有7%。他的判断是,AI现在大概处于互联网的MySpace时代。
想想MySpace之后又诞生了多少公司、多少市值、多少技术突破。AI的好戏才刚刚开始。
这个类比其实点出了Akamai做分布式推理的底层逻辑。近三十年前这家公司解决的问题和今天面对的问题,结构上是一样的,把集中的东西变成分布的。当年分发的是网页和视频,现在分发的是AI推理。方法论一脉相承。
他在session结尾说了两句话,颇能概括这种逻辑,“AI工厂创造智能,AI Grid分发智能”,以及“没有分布式推理的AI,就像没有CDN的互联网”。

GTC期间,NVIDIA官方将Akamai Cloud和AWS一起列为首批提供RTX PRO Blackwell Server Edition实例的云服务商。黄仁勋keynote展示的合作伙伴logo墙上,Akamai赫然在列。NVIDIA电信业务全球副总裁Chris Penrose评价说,Akamai通过运营AI Grid,正在为生成式AI、AI Agent和物理AI构建连接组织,将智能直接推送到数据所在的地方。
Akamai也在GTC上正式发布了业界首个全球规模落地NVIDIA AI Grid参考架构的方案,将NVIDIA AI基础设施深度集成到自身的分布式网络中。这不是一个松散的合作。Akamai是首家将AI Grid从概念推到运营级别的厂商,底层跑的是NVIDIA AI Enterprise软件栈、Blackwell架构GPU和BlueField DPU加速网络的完整技术栈。
推理基础设施的几个现实问题
回到地面,对于正在考虑推理部署的AI团队,有几个绕不开的现实问题。
不是所有推理都需要H100。这个认知正在被越来越多团队接受。H100为训练和大规模推理而生,但如果跑的是8B参数的模型、做的是语音交互或者视频分析,用H100就像开卡车送外卖。
Akamai目前部署的RTX PRO 6000 Blackwell Server Edition是一个值得关注的选项。直接看Token经济,$2.50/小时全包价,每美元Token产出是同类方案的2.1倍。
性能层面,这张卡配了96GB GDDR7显存和4,000 TOPS FP4算力,在NVFP4精度下推理吞吐量比H100高出60%以上,对比上一代RTX 4000 Ada提升达19倍。另一个容易被忽略的差异是视频处理能力,RTX PRO 6000原生支持112到132路视频编解码,如果做的是视觉AI相关的产品,这个能力是定位于训练和超算的H100不具备的。
再加上风冷设计,在边缘机房有限的空间和功耗条件下部署门槛低得多。Shawn Michels在GTC session里的观点说的是未来的推理基础设施一定是混合架构,不同GPU匹配不同的工作负载,没有万能卡。
Egress费用是隐性杀手。很多团队做预算时只看GPU租用价格,忽略了数据出站费。AI产品服务全球用户,视频和模型响应产生的出站流量成本可能比GPU本身还贵。
边缘部署的经济逻辑之一正在于此,推理结果在本地生成、本地交付,不用跨大半个地球回传。Akamai的egress价格是$0.005/GB,和三大云厂商的差距非常明显。
调度比算力更难。GPU散到全球各地只是第一步,更难的是让每个请求找到最合适的那台机器。Akamai在GTC上展示了他们的AI编排器(Orchestrator),这不是传统的根据延迟和负载来分配流量的负载均衡。
它会考虑模型亲和性(哪台机器已经加载了需要的模型)、GPU显存占用、KV Cache状态等AI场景特有的因素来做实时路由决策。现场demo中,推理请求从巴黎节点实时切换到加州节点,用户侧完全无感知。这背后是Akamai做了近三十年流量调度的老本行,在AI场景上的自然延续。
目前Akamai的Blackwell GPU节点已覆盖欧洲、亚太和美洲共19个节点,配合4400多个边缘入网点协同工作。对于出海的AI团队来说,东京、新加坡、孟买、雅加达这些亚太节点尤其值得留意。

出海AI创业者的第三种选择
Akamai从CDN到安全,再到云计算和AI推理的转型路径,本身就是互联网基础设施演进的一个切面。它在这条赛道上的差异化在于,不是从零建数据中心,而是把已经运行了近三十年的全球分布式网络变成了AI推理的底座。
这步棋能走多远,取决于它能不能跟上AI硬件更新的速度,也取决于边缘推理的市场需求能否如预期般爆发。
但对中国出海AI创业者来说,一件事正在变得越来越清楚,全球化部署推理能力正在从“以后再说”变成“现在就得解决”。
合规(数据主权、不出境)、延迟(用户体验的硬门槛)、成本(egress和GPU租用的真实账单),这是出海时最现实的三座山。Akamai的边缘推理平台提供了一种此前不太存在的选择,不必自建全球基础设施,也不必把鸡蛋全放在几家超大规模云上,而是可以借助一张已经覆盖130多个国家的分布式网络,把推理跑到离用户最近的地方去。
