OpenAI将部署第100万颗GPU,展望一亿颗?

编译自tomshardware
1亿个GPU现实吗?目前还不行,除非在制造、能源效率和成本方面取得突破。但这正是关键所在。Altman的愿景并非局限于现有资源,而是着眼于未来的可能性。

本文来自微信公众号“半导体行业观察”,编译自tomshardware。

OpenAI首席执行官Sam Altman并不以目光短浅而闻名,但他最近的言论甚至突破了他一贯的大胆技术言论的界限。在X上的一篇新文章中,Altman透露,OpenAI有望在今年年底前“上线超过100万个GPU”。仅此一个数字就已经很惊人了。

想想埃隆马斯克的xAI,它在今年早些时候凭借其Grok 4模型引起轰动,运行在大约200,000个Nvidia H100 GPU上。OpenAI的计算能力是这个的五倍,但对于Altman来说这还不够。“为团队感到非常自豪......”他写道,“但现在他们最好开始研究如何将其提高100倍,哈哈。”

微信图片_20250722115144.png

“哈哈”可能听起来像是在开玩笑,但Altman的过往经历表明并非如此。早在2月份,他就承认OpenAI不得不放慢GPT-4.5的推出速度,因为他们实际上“GPU用完了”。这可不是小问题;考虑到Nvidia的顶级AI硬件到明年的订单也已售罄,这可谓一记警钟。

此后,Altman将计算扩展作为首要任务,寻求合作伙伴关系和基础设施项目,这些项目看起来更像是全国性的行动,而非企业IT升级。当OpenAI在今年晚些时候达到100万个GPU的里程碑时,它将不仅仅是社交媒体的炫耀——它将巩固自己作为全球最大AI计算消费者的地位。

无论如何,让我们来谈谈那个100倍的目标吧,因为它听起来确实很疯狂。按照目前的市场价格,1亿块GPU的成本约为3万亿美元——几乎相当于英国的GDP——这还不包括电力需求或容纳这些GPU所需的数据中心。Nvidia短期内根本不可能生产出这么多芯片,更不用说满足所有GPU的能源需求了。然而,这正是Altman的“登月计划”式思维。这与其说是一个字面意义上的目标,不如说是为通用人工智能(AGI)奠定基础,无论这意味着定制芯片、奇特的新架构,还是我们尚未见过的东西。OpenAI显然想要找到答案。

最活生生的例子就是OpenAI位于德克萨斯州的数据中心,它目前是全球最大的单体设施,耗电量约为300兆瓦——足以为一座中型城市供电——预计到2026年中期将达到1千兆瓦。如此巨大且难以预测的能源需求已经引起了德克萨斯州电网运营商的关注。他们警告说,要稳定如此规模的数据中心的电压和频率,需要成本高昂且快速的基础设施升级,即使是州公用事业公司也难以匹敌。无论如何,创新必须占上风,泡沫不应该破裂。

OpenAI并非仅仅囤积NVIDIA硬件。虽然微软的Azure仍然是其主要的云骨干,但OpenAI已与甲骨文合作构建自己的数据中心,并且据传正在探索谷歌的TPU加速器,以使其计算堆栈多样化。这是一场更大规模军备竞赛的一部分,从Meta到亚马逊,每家公司都在自主研发AI芯片,并大力投资高带宽内存(HBM),以支持这些庞大的模型。Altman则暗示了OpenAI自己的定制芯片计划,考虑到公司不断增长的规模,这并非偶然。

Altman的评论也毫不掩饰地提醒我们,这个领域的发展速度有多么快。一年前,一家拥有1万块GPU的公司听起来就像是一个重量级的竞争者。而现在,即使是100万块GPU,也感觉只是迈向更大目标的垫脚石。OpenAI推进基础设施建设的目的不仅仅是加快训练速度或更顺畅的模型部署;而是为了在这个计算能力最终成为瓶颈的行业中确保长期优势。当然,Nvidia非常乐意提供这些基础模块。

1亿个GPU现实吗?目前还不行,除非在制造、能源效率和成本方面取得突破。但这正是关键所在。Altman的愿景并非局限于现有资源,而是着眼于未来的可能性。年底前上线的100万个GPU,是标志着AI基础设施新基线的真正催化剂,而这个基线似乎正在日益多样化。除此之外,一切都是雄心勃勃的目标,如果Altman的历史可以作为借鉴,那么将其视为纯粹的炒作或许是愚蠢的。

参考链接

https://www.tomshardware.com/tech-industry/sam-altman-teases-100-million-gpu-scale-for-openai-that-could-cost-usd3-trillion-chatgpt-maker-to-cross-well-over-1-million-by-end-of-year

THEEND

最新评论(评论仅代表用户观点)

更多
暂无评论