本文来自微信公众号“twt企业IT社区(talkwithtrend.com)”,【作者】李瑞雄,某大型车企高级经理。负责集团IT基础设施包括云平台、网络架构、存储架构、终端的规划、建设和运维管理。负责集团IT运维体系的规划,建设和管理,通过IT运维流程优化、工具应用、数据打通,打造快速响应、安全、稳定、高效、可量化的IT运维服务,为集团数字化转型提供坚实的数字化底座。
导读
伴随AI的发展,GPU作为算力核心的地位日益凸显。而过往传统IT架构云化过程中,CPU、内存、存储等资源池化较为常见,关于GPU资源池化介绍很少。本文通过分享某汽车制造企业GPU资源池的建设经验,从技术方案、实施步骤到管理运维策略等环节提供指导,助力企业解决算力资源的使用难题,提高效率、降低成本,提升企业在智能化浪潮中的核心竞争力。此外,文章紧扣当前汽车产业智能化转型的趋势,聚焦自动驾驶技术发展所带来的算力需求激增问题,具有较强的现实意义和前瞻性。
一、引言
在科技飞速发展的当下,汽车行业正朝着国际化、新能源化、智能化方向深刻变革,智能化使汽车向移动智能终端转变,AI对数据处理分析需求激增,GPU因超强的并行计算能力成为关键支撑,其适配深度学习算法,在自动驾驶领域作用显著,未来汽车行业对GPU算力需求将爆发式增长。然而,当前GPU资源池使用面临诸多问题,如缺乏统一规划,资源利用率低,存在严重浪费;传统管理模式复杂,多套系统形成GPU资源孤岛;硬件采购和运维成本高昂。
本文通过分享某汽车制造企业GPU资源池的建设经验,从技术方案、实施步骤到管理运维策略等环节提供指导,助力企业解决算力资源的使用难题,提高效率、降低成本,提升企业在智能化浪潮中的核心竞争力。
二、GPU资源池建设背景
(一)自动驾驶技术对算力的需求
随着自动化程度的不断提升,从L1到L5级自动驾驶,对AI算法复杂度和算力的要求呈现出指数级增长态势。
L1级自动驾驶仅能实现单一功能的辅助驾驶,如自适应巡航(ACC)或车道保持辅助(LKA),其AI算法相对简单,主要通过传感器获取车辆周边的基础信息,如前方车辆的距离、速度和车道线位置等,然后依据预设规则进行简单的决策与控制,所需算力通常在几TOPS(每秒万亿次操作)左右。
L2级自动驾驶在L1的基础上,实现了部分功能的融合,能够同时控制车辆的纵向和横向运动,例如自动跟车、自动车道居中行驶等。这要求AI算法不仅要处理更多类型的传感器数据,还需具备一定的环境感知和决策能力,其算法复杂度显著提升,所需算力达到几十TOPS。
L3级自动驾驶,车辆在特定场景下(如高速公路)能够实现自动驾驶,驾驶员无需时刻监控,但需在系统发出请求时及时接管车辆。这一级别的自动驾驶需要AI算法具备更强大的环境感知、决策规划和预测能力,不仅要实时处理来自摄像头、毫米波雷达、激光雷达等多传感器的海量数据,还要对复杂的交通场景进行准确建模和分析,所需算力攀升至几百TOPS。
L4级自动驾驶则在更广泛的场景下实现自动驾驶,无需驾驶员随时接管。其AI算法要能够应对各种极端复杂的路况和交通环境,包括城市道路的拥堵、复杂的交叉路口、恶劣天气等。这不仅要求算法具备极高的准确性和可靠性,还需具备强大的学习和适应能力,以不断优化决策和控制策略,算力需求高达1000TOPS以上。
L5级自动驾驶追求完全自动驾驶,车辆在任何场景下都能安全、高效地行驶,对AI算法的复杂度和算力要求达到了极致,预计所需算力将超2000TOPS。
在自动驾驶的研发过程中,路测数据处理和模型训练优化对GPU算力也有着极强的依赖。自动驾驶系统在路测过程中,每天会产生海量的数据,这些数据包含图像、点云、雷达回波等多种类型,需要进行高效的存储、清洗、标注和分析,这些都需要GPU凭借其强大的并行计算能力,大幅加速数据处理的速度,缩短数据处理周期。
(二)传统GPU资源管理模式的弊端
1、资源孤岛现象
在传统的汽车制造企业中,不同业务部门往往根据自身需求搭建独立的GPU系统。自动驾驶研发团队、智能座舱开发小组以及生产仿真部门,各自拥有一套专属的GPU硬件与数据存储环境。这种分散式的架构使得GPU资源与数据处于割裂状态,如同一个个孤立的“信息孤岛”。例如,自动驾驶部门在进行路测数据训练时,拥有大量的GPU算力资源,但处于开发阶段的智能座舱项目组却因缺乏算力支持,导致新功能开发进度滞后。由于各部门系统相互独立,数据格式与调用接口不兼容,即便自动驾驶部门的GPU在非高峰时段处于闲置状态,智能座舱团队也无法获取这些资源,造成开发资源闲置与训练资源匮乏并存的尴尬局面。最终,项目任务积压,企业整体研发效率大幅降低,无法快速响应市场对智能化汽车产品的需求。
2、低利用率问题
最初的GPU管理是基于人卡绑定与资源独占模式,严重制约了GPU资源的有效利用。在许多汽车制造企业中,工程师与特定的GPU设备形成固定搭配,一旦设备分配给某位工程师或某个项目组,便长期处于独占状态,其他人员即便有紧急需求也难以调用。
3、架构单一性局限
传统的GPU资源管理架构通常仅支持单一平台或少数几种特定架构,无法满足汽车制造企业多样化的业务需求。随着企业业务的拓展,从自动驾驶算法训练、智能座舱软件开发到生产工艺仿真,不同业务对IT基础设施的要求差异显著。例如,部分自动驾驶算法训练需要基于KVM虚拟化环境,而智能座舱的图形渲染任务更适合ESXI架构。
然而,传统模式下的GPU资源无法灵活适配这些不同架构,企业若要开展新业务或采用新的技术平台,往往需要重新采购、部署专用的GPU设备,不仅增加了成本,还导致资源管理更加复杂,难以实现统一调度与高效利用,严重限制企业的技术创新与业务拓展能力。
三、GPU资源池建设目标
(一)提高资源利用率
传统模式下,汽车制造企业中不同业务部门的GPU资源相互隔离,形成资源孤岛,导致大量闲置浪费。GPU资源池建设旨在打破这一局面,通过池化管理的方式,将企业内分散的GPU资源整合为一个统一的资源池。在此模式下,无论自动驾驶研发、智能座舱开发,还是生产工艺仿真等业务,都能从资源池中按需调用GPU算力。
(二)降低成本
硬件采购成本:在传统资源管理模式下,由于资源利用率低下,企业为满足业务需求往往需要不断采购新的GPU硬件设备,造成资金的大量投入。而GPU资源池通过提高资源利用率,使现有的GPU资源能够满足更多业务场景的需求。企业无需再为每个独立的业务部门或项目重复购置设备,减少了不必要的硬件采购支出。
运维成本:传统模式下,多套独立的GPU系统增加运维管理的复杂性,运维工程师需要花费大量时间和精力在不同系统的资源管理、调度和日常运维工作上。GPU资源池建设实现了资源的统一管理和集中调度,简化了管理流程。通过自动化的资源分配和监控系统,运维工程师能够更高效地管理和维护GPU资源,减少了人工干预,降低运维工作量。同时,资源池的统一管理也便于故障排查和修复,提高了运维效率,进一步降低了运维成本。
(三)提升业务灵活性与创新能力
汽车制造行业的业务需求日益多样化,不同业务对IT基础设施的要求各不相同。GPU资源池具备支持多种架构的能力,无论是KVM虚拟化环境下的自动驾驶算法训练,还是ESXI架构下的智能座舱图形渲染任务,资源池都能灵活适配。这种架构的兼容性使得企业能够快速响应市场需求变化,当出现新的业务场景或技术平台时,无需重新采购和部署专用设备,只需在资源池中进行简单配置和调整,即可为新业务提供算力支持。这不仅加快了产品研发和技术升级的速度,还为企业开展技术创新提供了有力保障,推动企业不断推出更具竞争力的智能化汽车产品。
四、GPU资源池技术方案选择
(一)主流GPU虚拟化和池化技术层次分析和选择
硬件层(如英伟达MIG)
英伟达的多实例GPU(MIG)技术是基于硬件层面的GPU虚拟化方案,MIG支持英伟达GPU高端型号如A100等,通过将单个物理GPU划分为多个独立的实例,每个实例都拥有专属的显存、缓存和计算资源,能够独立运行应用程序,这种划分方式直接在GPU芯片硬件架构上实现,对GPU的原生计算性能损失很小。例如,在处理自动驾驶模型训练的大规模矩阵运算任务时,MIG划分出的实例可以保持接近物理GPU的运算速度,保障训练效率。
内核层(如英伟达vGPU)
内核层的GPU虚拟化技术,以英伟达vGPU为代表,是在操作系统内核层面实现GPU资源的虚拟化。英伟达vGPU是市场上较早推出的内核层虚拟化方案,其优势对传统虚拟机环境(如VMware ESXi)有良好的兼容性,广泛应用于企业级数据中心。
运行时层
采用具备多元异构算力调度能力的算力平台,算力和显存可按1%和MB的细粒度切分,显著提升资源利用率。在兼容性上,可支持所有英伟达GPU型号,避免企业因设备更新换代带来的技术适配成本;在功能完备性方面,同时支持虚拟机和容器环境,能够满足汽车制造企业从自动驾驶算法训练到智能座舱应用部署等不同业务场景的需求。在管理层面,提供完整的控制面,支持命令行、Web界面、API等多种管理方式,搭配可视化监控告警系统,运维人员可实时掌握资源使用情况和设备状态。此外,企业级功能应完备,具备故障卡隔离、任务热迁移、灰度升级等特性,确保系统在高负载和复杂业务环境下的稳定性与可靠性。
(二)结合汽车制造行业特点选择方案
汽车制造企业的业务具有高度复杂性,涵盖自动驾驶研发、智能座舱开发、生产工艺仿真等多个领域,各业务对GPU资源的需求差异显著,且需要在虚拟机和容器等多种环境下运行。同时,企业面临着资源精细化管理的需求,需要灵活调配资源以应对不同项目的优先级变化和突发需求。
五、GPU资源池建设实施步骤
(一)需求调研与规划
在汽车制造企业中,不同业务场景对GPU算力的需求呈现出显著差异。某车企2024~2025年,智能驾驶研发新增L2+及ADAS功能开发,智能驾驶基于不同的业务场景,细分规划了多个自动驾驶产品,目前正在开发中:
- 无人化场景重点开发清扫车、配送车、超级BUS接驳产品、潍坊短驳产品,面向无人化场景进行产品自主开发:感知、决策规划、控制、仿真测试等模块均实现自研,同时未来将结合公交公司进行实际路线进行落地;针对无人装备清扫、快递车,在总部及时代园区落地运营,通过测试运营数据持续优化迭代感知、决策、控制算法及软件;
- 少人化场景重点开发高速公路领航(HWP)干线物流产品和高速公路辅助(HWA)产品;少人化主要围绕干线物流场景进行高速公路领航HWP、HWA产品自主开发,HWA全栈自主可控,HWP感知部分分阶段建立相关能力,瞄准客户和可感知的部分,如决策规划、控制、地图引擎、节油、动力学模型等均实现自主研发,同时搭建量产能力;
算力资源评估:

说明:
BEV是将多个摄像头的图像数据转换为类似从空中俯视场景的鸟瞰视角表示的技术。
CNN是专门为处理具有网格结构数据(如图像、音频)而设计的深度学习神经网络架构。
为了建设GPU资源池,并对现有的GPU资源进行统一纳管,项目组对现有GPU资源进行全面盘点,详细记录每一块GPU的品牌、型号、数量、性能参数(如计算核心数、显存容量、显存带宽、浮点运算能力)以及使用状况(包括使用时长、负载率、故障记录)。通过专业的硬件检测工具和监控系统,获取GPU的实时性能数据和历史使用数据,分析资源的闲置率、利用率和潜在瓶颈。结合梳理出的业务场景需求,评估现有资源能否满足当前和未来一段时间的业务发展。制定合理的资源扩充计划,明确新增GPU的型号、数量和采购时间节点,确保资源池建设既能满足业务需求,又避免过度投资造成资源浪费。
架构设计
根据智驾业务需求和资源需求情况,项目组设计“中心管理节点+计算节点+存储”的分层架构,通过解耦控制平面与数据平面实现高可用与扩展性。
中心管理节点:部署调度引擎、资源监控模块及接口服务,负责全局资源视图构建、任务调度决策及策略配置。采用多副本模式,避免单点故障。
计算节点:每台物理机集成NVIDIA GPU,运行容器及GPU驱动,通过Agent上报GPU状态(显存使用率、算力负载、温度等)至中心节点。服务器选型时,综合考虑GPU的兼容性、扩展性和散热能力,选择支持多块GPU安装的服务器WB R5500 G5,确保服务器具备足够的电源功率和散热设计,保证GPU在高负载运行时的稳定性,构建一个灵活、可扩展且高性能的GPU资源池架构。本次项目集中采购的是24*A100 GPU,显存规格为80Gb,按照MIG设定的(profile)配置。最终虚拟出的GPU规格为3g.20gb,其中3g表示算力有3个单位,20gb表示内存有20个单位。
- 存储节点:选择高性能的存储系统,使用并行文件系统(GPFS),满足海量数据的快速读写需求。对于自动驾驶路测数据和训练模型数据,需要存储系统具备高吞吐量和高并发访问能力,同时支持数据的版本管理和备份恢复功能,保障数据安全可靠。
- 网络拓扑方面,采用高带宽低延迟的网络架构,选用25G/100G/200G以太网,确保GPU节点之间以及GPU与其他服务器之间的数据传输高效稳定,避免网络带宽成为性能瓶颈。
具体的硬件平台架构如下:

备注:
(1)200G网络负责集群内跨节点的GPU高速互通
(2)100G网络负责集群中计算节点GPU服务器访问高性能存储
(3)25G网络承载集群中节点管理流量以及推理服务的业务流量
(二)软件部署与配置
安装GPU管理软件
严格按照算力软件的安装指南,在选定的GPU服务器上进行部署。首先,确保服务器的操作系统和硬件环境满足软件的安装要求,安装必要的依赖库和驱动程序。在安装过程中,仔细配置各项参数,包括服务器IP地址、端口号、资源池名称、管理员账号密码等。
安装完成后,进行初步的系统检查,确保软件服务正常启动,通过命令行或Web界面登录管理平台,验证软件是否能够识别和管理服务器上的GPU设备,及时排查和解决安装过程中出现的问题,如驱动冲突、端口占用等,确保软件部署顺利完成。
资源整合与池化
企业内分散在不同服务器、不同部门的GPU资源纳入资源池进行统一管理。通过Kubernetes Device Plugin框架,将物理GPU暴露为K8s资源(如nvidia.com/gpu),结合自定义资源定义(CRD)GPUInstance,实现“1物理卡=N虚拟实例”的灵活管理。利用Docker容器技术,将GPU相关的运行环境(如CUDA库、深度学习框架)封装在容器中,不同容器内的应用共享宿主机上的GPU资源,结合Kubernetes等容器编排工具,实现对GPU资源的动态分配和调度。当自动驾驶研发项目有新的训练任务提交时,系统能够根据任务的算力需求和当前资源池的负载情况,自动分配合适的GPU资源,并将资源分配结果反馈给用户,实现资源的高效利用和统一管理。
(三)测试与优化
功能测试
对GPU资源池进行全面的功能测试。在资源分配方面,模拟不同业务场景下的资源申请和分配过程,验证系统是否能够根据任务需求准确分配GPU资源,包括资源的优先级分配、动态调整和释放功能。例如,当高优先级的自动驾驶紧急模型训练任务提交时,系统能否及时回收低优先级任务占用的资源并进行重新分配。
任务调度测试中,检查系统是否能够合理安排任务的执行顺序,避免任务冲突和资源争抢。弹性伸缩功能测试时,通过模拟业务负载的突然增加或减少,验证资源池是否能够自动扩展或收缩GPU资源,满足业务需求。同时,对监控告警功能进行测试,设置不同的监控指标阈值(如GPU利用率超过80%、显存剩余不足10%),验证系统是否能够及时发出告警信息,并通过邮件、短信等方式通知相关人员。
性能测试
通过模拟实际业务负载,对GPU资源池的性能进行全面评估。使用专业的性能测试工具,在资源池上运行不同类型的测试任务,包括自动驾驶模型训练、智能座舱图形渲染、生产仿真计算等。重点评估GPU利用率、任务执行效率、响应时间等关键指标。分析在不同负载下,GPU资源池的性能表现,如在高并发任务场景下,GPU的平均利用率是否能够保持在合理范围,任务的平均执行时间是否满足业务要求,响应时间是否在可接受的阈值内。通过性能测试,发现潜在的性能瓶颈,如网络带宽不足、存储I/O瓶颈、软件算法效率低下等问题。
优化调整
根据功能测试和性能测试结果,对GPU资源池进行针对性优化。在资源分配策略方面,调整资源分配算法,如采用基于优先级和负载均衡的混合分配策略,提高资源分配的合理性和效率。
网络配置优化上,调整网络参数(如MTU值、缓冲区大小),优化网络拓扑结构,减少网络延迟和丢包率,提升数据传输速度。对于硬件驱动,及时升级到最新版本,修复已知的性能问题和兼容性问题,充分发挥GPU的硬件性能。
此外,对软件系统进行优化,如优化算力平台软件的资源调度算法、改进监控系统的数据采集和分析机制等,不断提升GPU资源池的性能和稳定性,确保其能够持续高效地为公司的各类业务提供算力支持。
五、GPU资源池管理与运维
(一)资源管理策略
1、动态分配与回收:根据业务任务需求,实时动态分配GPU资源,任务完成后自动回收资源,提高资源利用率。
2、资源超分超售:在合理范围内,利用资源超分机制,将闲置资源高效利用,满足更多业务需求,同时确保性能不受影响。
3、配额管理:为不同部门、项目或用户设置GPU资源配额,防止资源滥用,保障关键业务资源需求。
(二)监控与告警
1、建立监控体系:利用算力软件自带的监控模块,用户可以实现对资源的统一调度、统一监管包括GPU利用率、显存使用、任务负载、服务器状态等指标,实现实时监控GPU资源使用情况以及数据的可视化,满足用户的不同业务场景的算力调度需求。
2、设置告警规则:根据业务需求和资源阈值,设置告警规则,当资源使用异常或出现故障时,及时通过邮件、短信等方式通知运维人员。
3、数据分析与报表:定期对监控数据进行分析,生成资源使用报表,为资源优化和决策提供数据支持。
(三)故障处理与维护
1、设置故障自愈机制:通过K8s Liveness Probe检测GPU驱动状态(nvidia-smi返回异常则重启Pod),节点级故障时,结合分布式存储实现任务数据持久化,自动迁移至健康节点。
2、故障诊断与排查:建立故障诊断流程,当出现GPU故障、服务器故障或软件故障时,能够快速定位故障原因,采取相应措施进行修复。
3、热迁移与冗余设计:利用任务热迁移功能,在不中断业务的情况下,将故障GPU上的任务迁移到正常设备上,同时通过冗余设计(如冗余电源、网络链路等)提高系统可靠性。
4、软件升级与更新:定期对GPU管理软件、驱动程序等进行升级更新,以获取新功能、修复漏洞、提升性能,确保系统安全性和稳定性。
六、GPU资源池建设成效
(一)技术创新加速
在GPU资源池建设前,公司的智能驾驶算法研发常因算力资源不足或分配不合理,导致研发周期漫长,从算法开发到初步测试,平均耗时长达8-10个月。建设GPU资源池后,通过资源的统一调配与高效利用,资源池实现了开发与训练资源的灵活共享,当算法训练需求激增时,可迅速调用其他闲置资源。在新一代端到端自动驾驶模型研发中,训练时间从原本的数月缩短至3个月左右。
(二)成本控制成果
GPU资源池建设投用后,提高资源利用率,减少了设备的采购,进而大幅度的减低了采购成本。同时在运维方面,GPU资源池实现了资源的统一管理和集中调度,简化了管理流程,通过自动化监控与调度系统,运维工作量大幅减少,运维成本每年降低了上百万元。
七、经验总结及建议
(一)建设过程中的经验教训
项目建设初期,因对业务场景的算力需求分析不够细致,导致资源池建设规模与实际需求不匹配。例如,未充分考虑自动驾驶模型训练后期数据量爆发式增长,初期资源规划不足,后期被迫紧急扩容,增加了建设成本与时间成本。对此,建议其他车企在建设GPU资源池时采用“分层调研+动态预测”模式,不仅要梳理当前各业务的算力需求,还需结合行业技术发展趋势,对未来1-3年的算力增长进行科学预估,预留充足的弹性空间。
GPU资源池管理运维环节,应建立完善的监控告警体系,对GPU利用率、显存占用、任务队列等核心指标设置多级阈值告警,制定标准化的故障处理流程,定期组织运维人员进行应急演练,提升系统稳定性与故障响应速度。
(二)对行业的启示与建议
1、强化顶层规划,构建适配企业战略的资源池蓝图
汽车制造企业应将GPU资源池建设纳入企业整体数字化战略,成立跨部门专项小组,涵盖研发、IT、财务、采购等核心部门。在需求调研阶段,采用“自下而上”与“自上而下”结合的方式,不仅收集各业务部门的显性需求,还要基于企业未来3-5年的产品布局,如智能驾驶等级提升、智能座舱功能迭代等战略目标,预测潜在算力需求。
2、注重全生命周期管理,夯实运维保障能力
建立GPU资源池全生命周期管理体系,从设备采购、部署实施到日常运维,制定标准化流程与规范。在实施部署阶段,建议“小范围试点-分阶段推广-全面覆盖”的策略,通过试点项目验证方案可行性,及时发现并解决潜在问题,降低大规模部署风险。运维层面,搭建统一的监控管理平台,实现对GPU资源池的实时可视化监控,利用AI运维技术,对资源使用趋势进行预测分析,提前发现性能瓶颈并自动优化资源分配。
