中国工程院院士郑纬民：用国产AI卡做万卡大模型平台要补强十项软件

2024-04-29 10:36

中国信息化周报

于帆

近年来，人工智能迎来爆发性增长，随之而来的是大模型训练对算力的高需求，以及算力的高成本，智算服务的稳定性保障成为备受关注的研发热点。郑纬民指出，大模型训练的70%成本和推理的95%成本都与算力直接相关。

本文来自微信公众号“中国信息化周报”，作者/于帆。

4月28日，2024中国移动算力网络大会在苏州召开。会上，中国工程院院士郑纬民在题为“如何构建基于国产AI卡的万卡大模型训练平台”的演讲中表示，由于种种原因，在大模型训练中用量较大的英伟达GPU产品，不仅价格暴涨还一卡难求，这给国内AI产业带来严峻考验的同时，也为国产AI卡带来难得的发展机遇。

大模型训练需求高涨算力建设指向万卡平台

在此背景下，如何构建基于国产AI卡的万卡大模型训练平台？郑纬民提出要从四个方面着手。

第一，平衡半精度运算性能与双精度运算性能。16位运算对人工智能应用至关重要，但随着技术的发展，64位运算性能也变得同样重要，因此设计系统时需要考虑64位双精度和16位半精度的运算性能平衡，双精度与半精度运算性能之比为1:100比较合适。根据科学计算(AI For Science)和大模型训练的发展趋势，变精度平衡设计为适应科学计算和更广泛的AI算法及应用提供了保障。

第二，网络平衡设计。构建大规模计算系统时，如何将大量计算卡有效地连接起来，形成一个高效稳定的计算网络，是实现高性能计算的关键。有的大模型用了10000张卡，这10000张卡如何将它们连接在一起？将每100张卡两两互联，进行不同的通信设计，来满足数据并行、模型并行和专家并行等不同的运行方式。

第三，体系结构感知的内存平衡设计。一方面访问内存的请求使网络拥塞，降低吞吐量，反映到应用程序上表现为访存性能显著下降；另一方面，多个访问内存的请求可能访问同一存控对应的内存空间，负载不均，存控需要顺序处理访存请求。

第四，IO子系统平衡设计。需要支持检查点，增加SSD。另外，系统的本地nvme ssd仅通过本地文件系统访问，限制了其应用范围，需要将每台服务器上的快速本地nvme整合成应用可见的全局分布式文件系统。

“大模型基础设施平衡设计的几点考虑做得好，别人要用1万块卡，我们用9000块卡就可以了。”郑纬民指出，构建基于国产AI卡的万卡大模型训练平台面临巨大挑战，但通过技术创新和产业合作，存在克服挑战的可能路径。

解决十大软件难题，国产AI卡的破局之道

目前支持大模型训练的有三种算力系统，分别为基于英伟达公司的GPU系统，基于国产AI卡的系统，以及基于超级计算机的系统，三种算力系统各有优劣。

郑纬民提到，英伟达GPU系统的优点是硬件性能好，生态系统较完善，但由于种种原因，当前的英伟达GPU产品不仅价格暴涨还一卡难求。这给国内AI产业带来严峻考验的同时，也为国产AI卡带来难得的发展机遇。

国产AI卡虽然在性能上与国际领先产品仍存在差距，但部分产品已经取得了很大的进步。不过目前国产AI卡的生态系统还不够成熟，导致用户在迁移过程中面临困难，这影响了国产AI卡的市场接受度。因此构建一个强大的软件生态系统，将是国产AI卡成功的关键。

为改善国产AI卡的生态系统，提升国产AI卡的竞争力，郑纬民提出需要开发十大关键软件：编程框架、并行加速、通信库、算子库、AI编译器、编程语言、调度器、内存分配系统、容错系统、存储系统。这些软件目前已经存在，但其稳定性和性能仍需提升。只有这些软件形成良好协同效应，才能为用户提供更加流畅、高效的使用体验。

郑纬民提到，只要把这些问题解决好，改善繁荣国产软件生态系统，即使国产AI卡的性能低于英伟达的GPU产品，用户可能也会更倾向于使用成本更低的国产解决方案。

除GPU系统和国产AI卡系统，超级计算机也可用于支持大模型训练，但需要从源头做好软硬件协同设计。

郑纬民表示，目前我国超算水平已经处于国际第一梯队，国家拥有14个一级超算中心，具备极高的计算速度，但部分超算中心的算力利用率并不饱和。虽然它们不是专门为大模型训练设计的，但它们的空闲资源可以被利用来进行大模型训练。通过优化超算中心的调度系统，实现对其计算资源的高效利用。

以训练LLaMA大模型为例，与租用英伟达GPU相比，使用超算系统不仅训练推理任务的精度一致，还可以节省高达6倍的成本。使用超算系统进行大模型训练可以节省成本，对大规模计算任务而言无疑是显著优势。此外，国内的百川开源大模型也已经成功运行LLaMA大模型进行精调和推理任务，这表明国产平台在软件兼容性方面取得重大进展。

目前，国产算力仍有强大发展潜力有待挖掘，包括大模型训练效率等硬件性能提升、软件生态系统的建设以及市场接受度的探索。面对全球科技巨头的竞争压力和技术封锁，以及国际政治环境导致的供应链短缺，发展国产算力迫在眉睫，必须加快自主研发生产的步伐。

郑纬民对未来国产化算力的发展保持乐观态度，只要努力完善繁荣国产AI卡的软件生态系统，攻破十大软件难题，就可以提高国产AI卡的市场竞争力，并最终实现对国外技术的替代。因此，构建国产AI卡的万卡大模型训练平台很难，但也很重要以及必要。

THEEND

免责声明：凡注明为其它来源的信息均转自其它平台，由网友自主投稿和发布、编辑整理上传，对此类作品本站仅提供交流平台，不为其版权负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。若有来源标注错误或侵犯了您的合法权益，请作者持权属证明与本站联系，我们将及时更正、删除，谢谢。联系邮箱：xiali@infoobs.com

本月热门

精选文章

热点资讯

政策解读|加强数据资产全过程管理

中国工程院院士郑纬民：用国产AI卡做万卡大模型平台要补强十项软件

2026 信息化观察网

长按扫描二维码阅读原文