OCloud AI算例平台

OCloud AI算力平台以Docker容器技术为基础,允许多个用户多个环境独立的同时运行,并且共享CPU、GPU、内存、网络、存储等IAAS层物理资源。

摘要

OCloud AI算力平台以Docker容器技术为基础,允许多个用户多个环境独立的同时运行,并且共享CPU、GPU、内存、网络、存储等IAAS层物理资源。同时这种架构将用户环境彼此隔离,可以实现资源的高效利用和精确配额,提供大模型部署环境和算力调度能力,预置主流训练框架和AI应用开发工具,能够帮助高校快速落地AI相关基础设施。

一、背景

(一)算力稀缺,机器学习成本高

GPU算力是AI学习、开发、科研等领域必不可少的、紧缺且昂贵的部件,传统模式下AI工作者和设备做绑定,形成独占式使用GPU算力,导致用户建设成本居高不下。

(二)AI开发流程复杂,工作效率低下

AI开发过程中涉及的流程与模块较多,缺少一站式的AI开发流程,从数据标注、算法开发、模型训练、到最后的模型管理与服务等,环境搭建繁琐,切换工具负责耗时耗力。

(三)运维运营难,缺乏统一资源调度与分配

GPU服务器设备分为多种场景使用,如虚拟化、容器云、桌面云等,且基本都是独立运营和运维。缺乏统一的集群管理与调度,导致物理资源隔离,GPU、CPU、内存、硬盘等资源不能最大化利用。在人工智能领域,已经开始了有效的探索,但往往采用单节点或者单机多卡进行模型训练,无法充分释放算力资源。

二、目标

(一)资源统一管理与调度,提升资源利用率

从分散的运维向集中化运维过渡,实现GPU、CPU、内存、存储等基础资源高效灵活调度,实现GPU集群快速、稳定、可靠的运维。

同时多租户、多层级的用户管理、资源管理、GPU共享等丰富的平台运营体系,进一步提升资源利用率。

(二)全流程AI开发与管理,降低AI开发复杂度

AI开发全生命周期实现,涵盖数据标注、算法开发、模型训练、模型管理等一站式完成。用户在线按需申请自己所需功能的模块的资源配置、环境配置,同时具备镜像创建、快照备份等丰富功能,解决在AI开发过程模块之间平台来回切换问题。

(三)一键式环境生成,提升工作效率

预集成了机器/深度学习主流框架,如TensorFlow/Caffe/Pytorch等,兼容国内如PaddlePaddle,Oneflow框架,同时支持自定义镜像框架,用户一次制作上传,后续一键式点击使用。大大降低了AI开发过程中环境部署的时间。

(四)采用先进架构支撑未来演进

建立一个高效优化的、易管理的AI教科研平台,同时未来能方便地扩展与管理。

三、建设内容

(一)整体架构设计

OCloud AI算力平台以Docker容器技术为基础,允许多个用户多个环境独立的同时运行,并且共享CPU、GPU、内存、网络、存储等IAAS层物理资源。同时这种架构将用户环境彼此隔离,可以实现资源的高效利用和精确配额,能保护用户免受由其他用户活动所造成的应用程序崩溃和环境故障所带来的影响。

OCloud AI算力平台分为底层基础设施资源层、资源调度层、平台管理层3个部分。

基础设施层主要为上层业务提供核心算力支撑,支持物理服务器、虚拟机、公有云等多种形式算力。其中CPU支持如Intel、AMD、鲲鹏、飞腾、海光等;GPU算力支持NVIDIA、昇腾、AMD、昆仑等;存储包括集中式存储和分布式存储,如华为、浪潮、杉岩等;网络包括传统以太网、ROCE、IB网络等以及防火墙、堡垒机等安全设备。

资源调度层借助Docker引擎实现CPU、GPU、内存、存储等资源的轻量级虚拟化,基于Kubernetes和定制化开发的调度器实现对任务和资源的灵活编排调度,结合结合vGPU、vNPU、分布式训练、租户管理、任务编排等技术,让资源利用率提升50%以上,解决满不同机器学习场景下对算力、性能、安全和成本的需求。同时机器/深度学习框架以插件的方式接入系统,如Tensorflow、Caffe、Torch和Teano等,有效提升整体系统的扩展性和可维护性。

平台管理层提供用户界面和管理界面两个UI界面。其中用户端包含了开发模块、训练模块、数据管理模块、模型服务模块、镜像仓库等实现机器学习MLOps支撑与管理;管理端包含主机管理、多租户管理、计量计费、告警监控设置、平台运营运维等,实现资源与用户的一站式管理。

(二)AI平台用户端平台

交互式开发服务:提供资源共享、单节点、分布式能力;具备多种AI框架供用户选择,支持自定义AI框架;具备多种算力资源选择(GPU、CPU、内存、硬盘等);具备查看GPU、CPU、内存的实时使用情况,显卡使用率、风扇使用率、以及温度监控等信息;对于AI开发环境,提供多种访问方式。如SSH访问(可通过SSH工具登录至环境中训练使用),Web方式(通过Jupyter Lab在线交互式笔记训练使用);具备环境信息变更的能力,如调整计算资源、开发框架、制作镜像、自动快照备份等;开放端口,可以通过IP和外部端口号访问环境的相关服务,如TensorBoard等。

模型训练服务:提供单节点训练、分布式训练能力,分布式训练支持单机多卡、多机多卡多种形式;平台具备多种业务主流AI框架,并支持自定义框架的扩展;多种算力资源选择(GPU、CPU、内存、硬盘),灵活满足模型对算力的要求;多版本及参数调优,模型训练功能具备模型的多版本生成与管理,可以基于参数二次生成新的训练任务;训练日志:用户可以实时查看任务的训练日志。

存储服务:用户对自己的存储空间拥有增删改查等权限;通过SCP或Web方式访问管理存储数据;通过存储可以管理训练中使用的数据和程序;把存储共享给其他用户使用。

镜像仓库:用户拥有自己的个人镜像仓库,仓库具备高度可扩展的镜像管理服务。

(三)AI平台管理端平台

资源运营:平台底层应采用Kubernetes作为IaaS资源的调度引擎;可调度的IaaS资源包括CPU、GPU、内存、存储、网络等。外部存储支持GlusterFS、Ceph、Longhorn等文件、对象存储;监控日志的存储采用Prometheus、EFK等;平台系统提供对于常见的计算设备的硬件资源按需合理分配,实现多个用户共享GPU计算服务器的资源,同时实现业务场景中的一机多卡、多机多卡的分布式训练;系统能够监控GPU使用情况,及时回收资源,高效管理和分配GPU显卡;提供资源查看功能,包括资源名称、类型、配置(GPU、CPU、内存、磁盘)、状态、申请时间及相关操作等;可支持在对应的主机上选择不同的资源类型进行资源申请,管理员提供相关审核功能;对于已申请并获得管理员审核通过的资源,提供启动、停止、重置、回收、恢复、删除等管理功能;提供访问功能,可查看远程访问连接信息;提供远程控制台功能,可通过控制台页面,通过命令方式在容器内执行相关操作。

业务运营:组织与用户创建、删除、修改、查看、资源配额等;模型训练开发、模型训练、存储管理、模型服务、模型仓库、镜像仓库对产品进行增删改查等操作;对平台的定价、资源套餐根据要求进行设定,用户额度充值管理、计量计费等;对管理Port的角色进行权限与职责分配,财务管理员,业务管理员、运维管理员、超级管理员、每个角色分配自己的职责。

计量计费:平台可以对用户资源使用进行计量计费功能。管理员通过对不同资源的配比进行设置价格,包括按年月日、预付费等方式进行灵活的计量计费,管理员也可以对组织进行账户充值操作,从而实现资源的合理管控和运营。

角色与权限:OCloud AI算力平台设置了三类角色,超级管理员、组织管理员、用户。

统一监控:管理员可以查看平台所有资源池中的基础资源统计、分类及数量,且提供用户对平台资源使用的状况,方便管理员更好的掌控资源利用率;管理员可以通过平台对计算节点、管理节点、存储节点进行的实时资源监控,便捷的查看到各节点的状态。

告警与通知:管理员可以对平台设置告警策略,通过短信、邮箱等形式进行通知相关人员;用户也可以对自己的开启部分告警通知,如资源审核通知,余额不足等。

日志审计:系统管理员,依据所在数据中心的安全策略进行安全审计时,可以在运维管理系统上查看日志,判断是否正常。正常时,任务结束;系统管理员发现存在异常情况时,需要确认问题并向运维主管汇报。运维主管决策后,再进行处理,并记录相应的处理结果。

四、实施效果

(一)节约成本

AI平台环境下,所有资源都集中在数据中心,实现资源的集中管控,弹性调度。管理员可实时对服务器和用户业务环境中GPU、CPU、磁盘等各类资源使用率等指标进行数据统计与审计,分析目前物理机、用户环境资源的状况,进而实时调整资源分配。

资源的集中管理与分配,提高了资源利用率。传统AI科研方式的服务器或工作站的CPU/GPU平均利用率不足30%,在OCloud AI算力平台环境下,云数据中心的CPU/GPU利用率可控制在75%左右。

(二)极致性能

借助容器、K8S等云计算技术打造的OCloud AI算力平台具备并行、高吞吐、低时延的极致性能,结合超强算力的GPU集群的支撑,相较于传统IT架构,计算性能提升10倍以上。

用户在平台上可以进行秒级的业务创建,实验AI环境的快速部署;同时借助于分布式训练模式,实现单机多卡、多机多卡的高效训练,大幅度提升模型训练能力,充分释放计算集群性能。

(三)完善的AI开发平台

OCloud AI算力平台提供全流程的AI开发体验。从数据集标注到模型服务,用户在平台上可以实现一站式的AI开发流程,从而全身心的投入AI科研中,降低AI开发过程流程复杂,步骤繁琐问题。

(四)丰富的功能模块

OCloud AI算力平台提供丰富的功能模块,全方位为用户提供AI科研服务。整体涵盖AI开发流程所需的功能。各个系统中又有众多小功能,最大化为用户提供便捷。如在AI开发环境中创建快照、保存为镜像模板共享给他人,在模型训练提供多版本、多参数、基于参数生成训练等。

完成单位:南京云玑信息科技有限公司

完成人:OCloud AI算例平台

THEEND

最新评论

更多
暂无评论