AI不是卡在算力，而是存储

3小时前

千家网

随着GPU云服务商的业务模式从单纯提供计算能力转向提供“有保证的结果”，服务级别协议（SLA）已从竞争优势转变为进入市场的基本门槛。人工智能系统正在大规模进入生产环境，计算、数据与存储被视为一个整体运行的系统。

本文来自千家网（www.qianjia.com）。

随着GPU云服务商的业务模式从单纯提供计算能力转向提供“有保证的结果”，服务级别协议（SLA）已从竞争优势转变为进入市场的基本门槛。人工智能系统正在大规模进入生产环境，计算、数据与存储被视为一个整体运行的系统。在此背景下，运营商必须在机架级别提供高可用性，否则在合作洽谈初期就可能被排除在外。

然而，在这些承诺背后，隐藏着一个被长期低估的问题——存储的可用性与韧性正在成为AI基础设施的主要瓶颈。

1、存储必须比计算更可靠，而不是“同样可靠”

在大规模生产系统中，存储的可用性必须高于计算，否则会直接拉低整体SLA。例如：

若共享存储的可用性为98%
而计算节点可用性为99.5%
则整个机架级的有效SLA会下降至97.5%

这一水平低于客户合同中通常支付的服务保障。在大型部署中，这种差距会迅速转化为可量化的损失。

举例而言，一个具有50个机架、共5000个GPU的系统，如果受到上述可用性差距影响，每年可能损失：

876,000GPU小时的有效计算
约260万美元的闲置成本
以及整体机架因未达SLA而产生的补偿费用

这说明，其SLA强度取决于基础设施中最脆弱的组件，而在当前的AI集群中，这个组件往往就是存储系统。

2、大规模AI工作负载对存储提出了前所未有的要求

现代AI训练与推理严格依赖于分布式系统中共享数据的持续访问。对数据流的任何中断都会产生连锁反应，包括：

元数据服务故障
网络延迟或超时
权限异常或I/O错误
分布式一致性问题

这些问题普遍存在于大规模系统的日常运行中，并非极端情况。对生产环境的AI而言，哪怕是数分钟的存储服务中断，都可能引发数据管道中断、作业失败或GPU大规模闲置。例如，一旦关键数据管道停止，其成本可达每小时约30万美元。

这反映了一个本质事实：在AI环境里，存储不是后台组件，而是直接决定计算资源能否被有效使用的核心基础设施。

3、存储系统的传统设计与现代AI的需求不匹配

许多当下用于AI的存储系统最初设计目标侧重于：

高吞吐量
低延迟
高性能缓存或工作区

而非面向持续、可验证、支持SLA的生产级运行。

传统技术如RAID或单域高可用方案仅能应对小规模或孤立故障，但无法应对以下场景：

系统扩展至数百节点后，组件故障变成常态
多节点同时出现故障的概率大幅提高
数据恢复时间延长并影响整体吞吐
故障恢复期间性能下降，无法满足模型训练的连续性

在这种规模下，关键问题不再是“初始性能如何”，而是：

在节点故障、网络抖动、硬件退化等现实条件下，系统能否维持接近峰值的可用性和吞吐？

现有的部分架构无法满足这一要求，由此导致SLA无法真实兑现。

4、面向AI的存储系统必须以弹性为核心指标

在全球范围内的高密度AI基础设施中，“基准性能”与“运营弹性”之间的差距正在快速扩大，成为决定系统成败的核心问题。要解决这一挑战，下一代AI存储系统必须满足以下条件：

无共享架构（Shared-nothing）

避免任何单点瓶颈，确保其组件故障仅影响局部而非整体。

在故障情况下仍保持可用性与吞吐

不只是容忍故障，而是在失去节点、磁盘或网络链路后依然维持接近正常的服务能力。

快速检测与恢复数据一致性

包括：

快速识别损坏或丢失的副本

在严格时间窗口内完成自愈

最小化恢复过程对正常业务的干扰

在实际故障场景下进行持续验证

模拟生产环境的真实压力，而非依赖实验室中的理想化条件。

只有当这些韧性设计成为存储系统的核心原则，AI的SLA才能在实践中得到真正保证。

结论：未来AI规模的关键不在GPU，而在于存储弹性

尽管行业正以前所未有的速度扩展存储容量以满足性能需求，但如果存储无法在故障情况下维持可用性和吞吐，则：

计算资源将无法被有效利用
SLA执行将出现系统性差距
GPU闲置与惩罚成本将成倍增加
整体AI工厂的效率会因最弱环节而受限

未来AI集群的核心竞争力将不再只是GPU数量或峰值吞吐，而是：

能否在实际故障条件下保持稳定的性能与持续可用性。

存储将从传统意义上的“后台支持组件”，转变为决定AI系统成败的关键基础设施。

THEEND

免责声明：凡注明为其它来源的信息均转自其它平台，由网友自主投稿和发布、编辑整理上传，对此类作品本站仅提供交流平台，不为其版权负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。若有来源标注错误或侵犯了您的合法权益，请作者持权属证明与本站联系，我们将及时更正、删除，谢谢。联系邮箱：xiali@infoobs.com

本月热门

精选文章

共话政务创新实践!2025数字政府智能应用与创新发展大会将于9月25日在京启幕

7月22日
华龙工业操作系统HualongOS亮相首届鸿蒙生态大会

12月4日
“教育大脑”——智慧教育生态平台

4月8日
宫云战：软件源代码安全性测试在区块链领域的应用

3月29日
2024（第七届）信息技术应用创新大会在京召开

7月27日
QuickBIM智慧建筑管家平台

4月2日

热点资讯

工信部印发《工业场景数据要素应用参考指引》围绕5大环节凝练出23个场景

AI不是卡在算力，而是存储

2026 信息化观察网

长按扫描二维码阅读原文