摘要
中船七〇九所为解决算力资源分散、利用率低、扩展性差等问题,引入武汉凌久微的凌慧AH9280训推一体机集群,构建统一调度的AI算力平台。该集群采用“8+1”硬件架构,支持全国产化与灵活部署,并通过自研集群管理软件实现资源高效调度。软件层面集成DIfy、n8n、RAGFlow等多元工具,覆盖模型开发、训练、推理全流程。平台已成功应用于海上AI情报分析、智能标绘、智能办公等场景,显著提升研发效率与智能化水平。
一、项目背景
前期,中船七〇九所各个部门信息化算力资源分散,相互独立且缺乏协同,存在以下难点:
(1)孤岛式的分布导致难以构建一个标准、统一的大模型开发与测试平台;
(2)不同团队之间的工具链、数据接口和运行环境往往无法兼容;
(3)现有算力基础设施的横向扩展能力明显不足,难以根据项目需求灵活、动态地调整资源规模;
(4)办公网络与业务生产网络之间相互隔离,未能实现安全高效的融合,这进一步阻碍了算力资源的整合与共享;
(5)各类异构计算资源——包括不同型号的GPU、AI加速卡及其他专用芯片——无法通过统一的平台进行有效调度与管理,导致整体算力利用率低下,也难以支撑大规模、高并发的模型训练与推理任务。
这些问题共同制约了组织在人工智能领域的创新速度与应用落地能力,亟需通过技术架构与管理机制的升级,构建弹性、融合、统一调度的一体化算力平台。
二、能力优势
随着人工智能与大数据技术的爆发式增长,催生了大规模并行计算、大模型训练等高频高算力需求,单一服务器已无法支撑这类复杂任务,GPU集群凭借卓越的并行计算能力成为核心基础设施。
武汉凌久微电子有限公司的凌慧DeepThink系列训推一体机(凌慧AH9280服务器集群)在Qwen/Baichuan/GLM等大模型应用生态建设的基础上,接入DeepSeek通用和专用系列大模型,经优化后形成的大模型及其软硬件生态。
凌慧AH9280服务器集群具备以下核心优势(1)全国产支持;(2)灵活的云边端部署能力;(3)流程开发体系,(4)高度定制化的应用解决方案。集群配合自研集群管理工具,可通过资源调度优化、实时监控及故障自愈能力,显著提升GPU资源利用率与集群稳定性,为上述研究所高算力场景提供可靠支撑。
通过软硬件深度协同,凌慧AH9280服务器集群实现了资源的高效调度与并行计算,用户可根据实际需求灵活搭配硬件、软件和应用产品,满足军事和办公场景中多样化的智能化要求。
三、硬件建设方案
凌慧AH9280服务器集群搭建方式为“8+1”,由8台凌慧AH9280智算服务器和1台凌岳NH5280管理服务器组成,每台智算服务器搭载8张凌久T100算力卡,负责大模型训练:训练、科学计算和推理部署;管理服务器负责集群管理、用户权限管理、数据存储运维,二者协同是AI规模化应用的关键。

图1凌慧AH9280服务器集群实物示意图
凌慧AH9280服务器集群组网分为AI计算区、业务区、管理区和备份区:
a)AI计算区:集群AI计算区基于单层组网。接入层交换机为200G交换机,交换机采用独立部署和同轨道通信方式。每台AH9280服务器的8张T100算力卡通过2个双端口200G网卡、200G光模块和光纤与高速交换机相连;每台服务器的存储数据、文件通过另一台高速交换机存入管理服务器,根据实际计算节点接口带宽,支持后续计算集群扩展。
b)业务区:集群业务通过10G光纤网络连接,用户业务终端网络通过10G光纤接入AI计算集群网络。存储物理硬盘放在管理服务器上,通过NFS协议存储共享的方式让智算服务器通过单端口200G网卡共享存储。计算网络与业务网络分离的设计可以满足服务集群进行计算推理和数据交换的同时,不影响终端访问速度。
c)管理区:集群管理区交换机为1G电口交换机,用于服务器的管理。
d)备份区:通过200G高速存储交换机,将管理服务器的存储数据,每周定时同步一次到备份服务器中,保障数据安全。
四、软件建设方案
凌慧AH9280服务器集群不仅需完成底层集群的软件部署配置,还将集成DIfy、n8n、anythingLLM、RAGFlow、OpenWebUl、Neo4j、llamafactory等上层应用,打造“底层支撑-中层调度-上层应用”的完整技术体系,多层次协同工作以支持AI系统的开发、训练、推理及管理。

图2凌慧AH9280服务器集群软件逻辑架构
a)系统层
凌慧AH9280服务器集群系统层部署在基础计算资源之上,负责对底层计算资源进行管理,确保资源的高效利用和系统的高可用性。采用Docker容器化技术,将计算资源封装为独立的容器镜像,实现应用的隔离、快速部署和可移植性。
基于凌久集群管理软件(ljm_Al_service_platform)的构建,开发人员核心部署集群控制器、节点代理、资源调度器及监控模块:控制器部署于专用管理节点,负责集群管控与任务分发;其余计算节点部署代理,执行指令并上报资源状态;调度器采用优先级与需求匹配算法实现负载均衡;监控模块实时采集GPU使用率、显存、CPU负载等核心指标。
集群调度策略:基于ljm_Al_service_platform配置三重调度策略:按任务类型分配资源(大模型训练用多卡、数据处理用单卡);支持任务优先级设置与安全抢占;为各部门配置资源配额,确保合理分配。
数据库方面,部署MySQL用于存储业务数据、用户信息等结构化数据;部署MongoDB用于存储非结构化数据,如大模型训练日志、应用配置文件等。缓存系统采用Redis,用于缓存频繁访问的数据,如大模型的中间计算结果、n8n的工作流配置等,提升数据访问速度。
b)基础软件层
基础软件层部署人工智能软件栈,为上层的模型开发、训练和推理提供底层支撑,提供运行时库、图计算引擎、通信库、算子库等。
基础支撑软件实现平台层部署Docker容器化,Docker保障应用环境一致性,同时部署MySQL 8.0存储结构化数据,MongoDB存储大模型日志等非结构化数据,Redis缓存高频访问数据以提升响应速度。
c)框架工具层
包含通用深度学习框架,基础软件层通过提供编程接口以及提供不同类型的模型支持能力,以兼容不同框架,支持模型训练与推理。
d)算力调度层
通过ljm_Al_service_platform对算力资源进行统一管理,向上层提供高效的大模型部署和推理解决方案,支持不同大模型在计算平台上的部署与推理。并提供支持vLLM推理接口,兼容OpenAI API格式,实现快速与现有应用的集成。
e)模型应用层
以“大模型开发-知识增强-流程自动化”为核心链路,集成DIfy、n8n、anythingLLM等多元工具,各应用基于平台层统一资源支撑,通过API联动与ljm_Al_service_platform资源调度实现协同运转,构建覆盖大模型全生命周期的应用体系。
DIfy智能应用平台作为核心开发入口,采用Docker容器化部署并配置多副本保障高可用。平台通过统一的ljm_Al_service_platform动态调度GPU资源(支持1-4卡),满足模型推理需求;数据层面深度集成MySQL、MongoDB与Redis,分别存储应用配置与权限、训练日志与对话历史、以及缓存热点模型参数,将响应延迟控制在500ms以内。
OpenWebUI作为统一交互门户,与DIfy共享GPU资源池,支持自定义推理参数与多轮对话记忆,并可直接调用DIfy的模型服务,实现“一键切换模型”。
llamafactory专注于大模型高效微调,通过ljm_Al_service_platform调度4-8卡GPU组建训练集群,并利用InfiniBand网络加速。其与平台形成闭环:微调后的模型可自动同步至资源池,经测试后通过DIfy快速部署为业务应用。
anythingLLM是私有化知识库工具,支持多格式文档导入,通过GPU进行文本向量化,并利用Redis缓存索引以实现快速检索。它与DIfy深度集成,可为模型问答提供相关知识上下文,显著提升回答准确率。
RAGFlow作为高级检索调度中枢,采用“双库存储”模式(MongoDB存文档,Neo4j建知识图谱),融合多策略检索,为专业场景提供深度知识支撑。
Neo4j图数据库专注于实体关系存储与查询,支撑RAGFlow构建知识图谱,实现复杂关联查询。
n8n工作流自动化工具作为应用协同中枢,通过API连接各组件,构建从文档处理、模型调用到结果分发的自动化流程,并基于RBAC确保流程安全可控。
整体上,凌慧AH9280服务器集群各软件组件通过ljm_Al_service_platform实现算力统筹与协同,形成覆盖模型开发、训练、管理、检索与应用的全链路AI平台。
五、应用案例
武汉凌久微电子有限公司的凌慧DeepThink系列训推一体机(凌慧AH9280服务器集群)已在中船七〇九所搭载以下应用:
a)海上AI情报官
海上Al情报官基于凌慧AH9280服务器集群高效算力,面向海上多源情报高效处理和态势智能分析应用需求,在传统雷达航迹数据的基础上,全面接入文本、图像等多模异构情报数据,融合处理生成全域海上态势,并面向情报业务提供深度智能化理解和分析能力。
b)智能标绘助手
智能标绘助手旨在解决传统手工标绘“不好画、画不快、难画准”等问题,基于凌慧AH9280服务器集群大模型、知识库等技术手段,研发文本标绘智能体、场景标绘生成助手、辅助标绘助手等核心功能,形成标绘自动生图、实时生图、规范生图能力,实现80%智能生成+20%人工修改的标绘新模式,大幅度提升实战化标绘效能。
c)智能办公助手集
智能办公助手集是一款基于凌慧AH9280服务器集群全栈式软硬一体大模型智能应用开发的、面向企业及个人用户的智能化办公解决方案,支持构建企业/个人本地知识库,整合会议助手、公文生成助手、知识问答助手和翻译助手四大应用,满足企业/个人在文档处理、会议通知、翻译和综合办公等多个方面的多样化需求,显著提升办公效率和用体验。智能办公助手集支持开箱即用,无缝融入日常办公场景,通过大模型技术提升办公效率、降低重复劳动,赋能企业智能化转型。
完成单位:武汉凌久微电子有限公司
完成人:廖宇锋、陈张新、左建朋、周诚