深算工场算力调度系统建设优秀的方案

项目地址:
github地址:https://github.com/hwua-hi168/quantanexus
gitee地址:https://gitee.com/hwua_1/quantanexus-docs
公有云版地址: https://www.hi168.com

1. 项目概述

1.1 国内外现状

人工智能的研究自 1956 年之后,引发第一次浪潮,主要研究逻辑推进为主的“基于规则的专家系统”,但是经过长时间的研究,专家系统进入瓶颈期,随之 AI 的资金投入和人员投入 大ᰁ缩减,AI 研究方向也悄然发生变化,以研究计算机视频、语音和计算机自然语言进行新的研究方向,“机器学习”算法的不断优化使得人工智能在多个领域实现了惊人的突破。

2011年 Google 大脑通过非监督学习识别出猫脸,2015年斯坦福人工智能实验室的计算机图像识别技术的图像识别正确率在ImageNet 图像识别比赛首次超过人眼,2016年微软语音识别技术可以将英语错词率降至5.9%。2016年 AlphaGo 战胜李世石引起全世界的轰动,“人工智能”精彩回归,᯿新受到政府、学术界、产业界等社会各界的广泛关注。近年来,随着高质量“大数据”的获取、计算能力的大幅提升、以深度学习为代表的算法模型不断丰富,人工智能研究再次进入了快速发展的时期,同时不断影响、渗透、推进着相关众多产业、行业的快速发展。

我国的人工智能相关人才与世界主要发达国家相比明显不足,且手艺应用类 人才也存在较大缺口,为此国家相关部门先后出台多个相应的政策文件,对人工智能的发展做出了总体部署,全面加速人工智能手艺的研发应用和人才培养的步 伐,深化各梯度人才的培养。

2017年7月国务院正式发布《新一代人工智能发展规划》,将我国人工智能技术与产业的发展上升为国家重大发展战略,提出要“完善人工智能教育体系”。

2018年4月教育部印发了《高等学校人工智能创新行动计划》,明确提出了设立人工智能专业、推动人工智能领域一级学科建设、建立人工智能学院以及完善人工智能领域人才培养体系等重要任务。

2019 年教育部在专业发展调整规划中,正式宣布在普通高等学校、高等职业教育院校中设置“人工智能技术服务专 业”,并且从 2019 年开始实行。

1.2 难题与挑战

当前很多高校都在致力于AI 学科的发展和科研,但在发展和使用过程中各种问题也逐渐凸显,主要体现在以下几点:

(1)算力稀缺,机器学习成本高

GPU算力是AI学习、开发、科研等领域必不可少的、紧缺且昂贵的部件,传统模式下AI工作者和设备做绑定,形成独占式使用GPU算力,导致用户建设成本居高不下。

(2)AI 研发流程繁琐,工作效率低下

AI制作过程中涉及的流程与模块较多,缺少一站式的AI开发流程,从数据标注、算法开发、模型训练、到终于的模型管理与服务等,环境搭建繁琐,切换工具负责耗时耗力。

(3)运维运营难,缺乏统一资源调度与分配

当前高校GPU服务器设备分为三种情况,数据中心、教师个人拥有、各实验室,且基本都是独立运营和运维。缺乏统一的集群管理与调度,导致物理资源隔离,GPU、CPU、内存、硬盘等资源不能最大化利用;同时往往采用单节点或者单机多卡进行模型训练,无法充分释放算力资源。

1.3 建设目标

目前业界主流趋势是采用云计算技术改造传统的 AI 科研场景,即采用一体化的 AI 科研平台,通过虚拟机和容器科技构建基础资源池,AI核心平台平台提供业务用户采用AI算法编写、模型构建、模型训练、模型服务等,打造一站式的 AI 工作平台。

(1)资源统一管理与调度,提升资源利用率

从分散的运维向集中化运维过渡,实现GPU、CPU、内存、存储等基础资源高效灵活调度,实现GPU集群快速、稳定、可靠的运维。

同时多租户、多层级的用户管理、资源管理、GPU共享等丰富的平台运营体系,进一步提升资源利用率。

(2)全流程 AI 开发与管理,降低 AI 开发复杂度

AI开发全生命周期实现,涵盖信息标注、算法开发、模型训练、模型管理等一站式完成。用户在线按需申请自己所需作用的模块的资源配置、环境配置,同时具备镜像创建、快照备份等丰富功能,解决在AI构建过程模块之间平台来回切换问题。

(3)一键式环境生成,提升工作效率

预集成了机器/深度学习主流框架,如TensorFlow/Caffe /Pytorch 等,兼容国内如PaddlePaddle,Oneflow框架,同时支持自定义镜像框架,用户一次制作上传,后续一键式点击使用。大大降低了AI开发过程中环境部署的时间。

(4)采用先进架构支撑未来演进

建立一个高效优化的、易管理的 AI 科研平台,同时未来能方便地扩展与管理。

本方案的设计全面落实“产、学、研、用”一体化的思想和模式,从教学、实践、科研和使用多方面注重专业人才和特色人才的培养。

项目融合人工智能、大数据、云计算等新工科专业教学、实训、实战等各层次实践教学,能够从面向行业需求和促进学生职业发展的角度规划和建设,真正在产业、学校、科研及实际项目中相互配合,发挥优势,形成生产、学习、科学研究、实践运用的系统运作模式,从而建设特色学科。

1.4 建设原则

为使本建设方案合理、科学达到上述目标,必须遵循以下原则:

(1)平台的标准化

坚持标准化的建设模式,贯彻国家和行业相关业务、管理和技术规范标准,并积极制订任务相关标准规范。硬件的选用应遵从国家和行业技术标准。

(2)技术的先进性

采用成熟、先进的技能,确保平台科技的先进性和前瞻性,尽可能采用先进的软件体系结构和应用平台,建设符合信息技术的最新发展潮流的应用基础架构和应用架构,保证投资的有效性和延续性。

(3)框架的安全性

充分考虑用户、架构、网络方面的安全性要求,防止来自外部非法的访问。系统具有用户的身份认证和权限管理,对应不同的应用层次。既能保证不同用户高效、快速地访问控制授权范围内的系统资源,也能奏效地阻止用户之间的非法侵入、非授权访问。

(4)系统可维护性

系统应能使管理员通过集中控制中心方便地安装、监视、控制、诊断整个系统,并且能够监视和控制用户情况、提高效率、消除隐患。管理人员可通过系统管理功能和权限管理方便地维护和管理该体系。

(5)系统可扩展性

系统技术平台设计时要分析现有需求并预测未来的增长,既满足目前的要求,又要适当前瞻。技术平台的结构要合理,应具有良好的扩展能力,以利于今后的扩展。对于未来的发展,要立足在现有的基础上升级改造,保护现有投资。

小伙伴们 可 以 注 & 册 https://www.hi168.com 白 & 飘 算 & 力哦。

2. 平台解决方案

2.1 系统概述

系统主要用于AI的科研和教学研究,基于轻量级容器和虚拟机技术的混合架构模式,集群化调度、管理以及编排采用Kubernetes框架实现,支持Nvidia全系GPU,支持GPU拆分共享教学,允许多个用户多个环境独立的同时运行,并且共享CPU、GPU、内存、网络、存储等IAAS层物理资源。同时这种架构将用户环境彼此隔离,可以实现资源的高效利用和精确配额调度,能保护用户免受由其他用户活动所造成的应用程序崩溃和环境故障所带来的影响。

体系分为底层基础设施资源层、资源调度层、平台功能层3个部分。

基础设施层主要为上层业务给出核心算力支撑,支撑物理服务器、虚拟机、公有云等多种形式算力。其中CPU支持如Intel、AMD、鲲鹏、飞腾、海光等;GPU算力支持NVIDIA、昇腾、AMD、昆仑等;存储包括集中式存储和分布式存储,如华为、浪潮、杉岩等;网络包括传统以太网、ROCE、IB网络等以及防火墙、堡垒机等安全设备。

资源调度层借助KVM引擎实现CPU、GPU、内存、存储等资源的轻量级虚拟化,基于Kubernetes 和定制化研发的调度器搭建对任务和资源的灵活编排调度,结合结合vGPU、vNPU、分布式训练、租户管理、任务编排等技术,让资源利用率提升50%以上,解决满不同机器学习场景下对算力、性能、安全和成本的需求。同时机器/深度学习框架以插件的方式接入系统,如Tensorflow,Caffe,Torch 和 Teano 等,有效提升整体体系的扩展性和可维护性。

平台作用层提供用户界面和管理界面两个UI界面。其中用户端包含了制作模块、训练模块、数据管理模块、模型服务模块、镜像仓库等实现机器学习MLOps支撑与管理;管理端包含主机管理、多租户管理、计量计费、告警监控设置、平台运营运维等,完成资源与用户的一站式管理。

2.2 网络设计

整体网络架构如下:

整体网络划分为两层,分别为:

(1)接入层

服务器和存储上行接入到接入层交换机。为简化组网提高组网可靠性,建议接入交换机采用堆叠方式,服务器侧建议采用4网卡(业务管理双网卡、存储双网卡)方式进行组网,业务、存储网络分别通过双网卡聚合确保链路冗余。

(2)汇聚层

接入交换机上行到汇聚层交换机。汇聚交换机建议采用交换机集群的方式,接入交换机采用ETH-TRUNK上行至汇聚交换机,汇聚交换机堆叠之后,无需启用VRRP能力,如果需要汇聚交换机提供网关功能,则直接将VLAN IF接口作为用户网关地址。

网络划分为三个平面即管理网络、存储网络、计算网络。从成本和性能综合来看,建议存储用100 IB网络,管理和业务合并用10G 网络,每个平面均采用双网口聚合,进一步提升网络的可靠性。

小伙伴们 可 以 注 & 册 https://www.hi168.com 白 & 飘 算 & 力哦。

2.3 调度设计

1智算GPU调度器Volcano

系统采用Volcano作为GPU调度器,Volcano是Kubernetes的批处理调度系统,提供高性能任务调度能力。适用于AI、大数据等高性能任务调度引擎、高性能异构芯片管理、高性能任务运行管理场景。

目前,Kubernetes已经成为容器编排的事实标准,容器集群服务商的Kubernetes平台都提供了GPU的调度能力,但通常是将整块GPU卡分配给容器。GPU在集群中属于稀缺资源,在某些场景下,这种独享的GPU资源的分配策略往往会导致GPU资源利用率偏低。Volcano提供调度层面的GPU资源共享,可以使多个Pod运行在同一块GPU卡上,从而提升集群GPU资源整体利用率。

Volcano工作流程:

Volcano调度:

2)GPU 碎片化和调度效率低下的问题和解决

Kubernetes 集群由很多GPU 组成,每个 GPU 均由不同型号构成。该集群支持多种工作负载:

  • 多节点、多 GPU 分布式训练作业
  • 高吞吐量 AI 模型的批量推理(Batch Inferencing)
  • GPU-backed 数据处理工作流
  • 用于创建和分析的交互式 Notebook

尽管有可靠的硬件,但该集群仍存在 GPU 碎片化问题,导致节点被部分占用,无法用于大型作业。此种效率低下的情况又因 Volcano 调度应用 它应用了一个分组调度算法。如果不进行干预,将导致集群容量降低,源于未使用的资源被其他团队回收。

为了应对这些挑战,平台依据将 Bin-packing 算法集成到 Volcano Scheduler 中,实施了增强型调度策略。这种方法专注于整合工作负载,以更大限度地提高节点利用率,同时让其他节点完全自由地用于更大的作业。

体系处理 GPU 碎片问题的方法涉及三个关键组成部分:

  • 工作负载优先级 :资源按重要性降序排列:GPU、CPU 和内存。适合传入工作负载的节点根据资源需求(例如选择器和亲和性规则)入围名单。
  • 通过 bin-packing 优化放置 :部分占用的节点根据其当前的利用率水平(从低到高)进行排序。工作负载起初放置在空闲资源最少的节点上,确保节点得到充分利用,之后再转移到其他节点。
  • 群组调度集成:增强型调度程序保留了 gang scheduling 的“全有或全无”原则,但增加了智能,可根据资源整合优先安排工作负载放置。

图1显示GPU 部分占用的节点 A 和 B 接收到需要两个 GPU 的新工作负载,并使用默认的 gang scheduling 机制将其放置在节点 B 上,从而降低了两个节点的容量。

图1. 具有两个优化节点的 Kubernetes 集群

通过因此,集群的可用节点数超过已占用的节点数。图2 表现有 214 个节点,所有 4 个 GPU 可用,需要 4 个 GPU 的训练作业能够轻松使用。

图2. Kubernetes 集群拥有 214 个节点,四个 GPU 均可用

图3 显示大约有 9 个节点和 3 个空闲的 GPU。

图3. 缓解 GPU 碎片化问题

将 Bin-packing 集成到 Volcano Scheduler 后,GPU 集群的性能发生了变化:

  • 提高资源可用性 :完全免费节点 (全部四个 GPU 均可用) 的数量有所增加,从而实现大规模训练作业的无缝调度。
  • 提高 GPU 占用率 :GPU 平均利用率上升至行业领先的 90%,远远超过 80% 的平均水平。
  • 提高成本效益 :凭借优化资源利用率,避免了容量缩减,并保持了对分配的集群资源的完全访问权限,而不会产生额外的间接费用。
  • 跨工作负载的可扩展性:不仅适用于分布式训练作业,而且还适用于批量推理和 GPU 帮助的数据处理任务。

图4. Cloud 集群 GPU 占用率在 90% 左右

2.4 功能设计

1后端算力和GPU设置

算力模版设置,算力模版为部署的应用模版献出统一标准的硬件设置。

GPU管理器设置,设置GPU的切片、共享内存和节点的亲和性方式。

应用模板GPU绑定设置,用于AI教学和训练的应用模板可以绑定指定类型的GPU。

2前端采用AI训练环境

学生使用账号登录系统后,进入到“应用中心”模块,找到相应的AI应用模块后进行部署。

回到桌面端就可以点击进入部署的AI应用,进行AI实验和训练。

在AI应用中,根据实验指导手册,打开相应的开发工具(Pycharm或Jupyter)运行相应的案例。

依据系统调度的vGPU直通到学生部署的AI应用(虚拟机)中。

在AI应用中,可以进行各种如图像识别的训练和推理。

2.5 可靠性设计

1服务器可靠性

服务器可靠性包括内存、硬盘、电源等多个层面的内容。

  • 提供BIOS内存自检和ECC纠错技术。
  • 帮助硬盘热插拔和RAID功能,提供硬盘在线故障检测和预警。
  • 支持电源1+1冗余和热插拔。
  • 支持对CPU,内存,风扇,电源,硬盘等热关键器件的温度实时监控,设备故障时会产生告警,可以灵活对支持热插拔设备进行在线更换,不帮助热插拔设备提前安排好业务后进行下电更换。配合智能的风扇调速和监控,确保系统运行的可靠性。

(2)存储可靠性

存储系统的高可用设计包括磁盘冗余、存储设备控制器冗余、存储链路冗余等。

  • 存储多链路

每个计算节点与存储集群之间,配置双网口做绑定,双网口结合业务特点设置为主备或者负载均衡模式,提升存储链路的高效与可靠性,从而避免单点故障带来的存储访问问题。

  • 存储数据的冗余备份

集群采用NAS文件存储系统作为存储设备,NAS集群文件系统支持分布式部署以及多副本技术,同时结合Riad阵列的冗余机制,确保素材的安全性。

(3)网络可靠性

  • 网络路径全冗余

核心层交换设备通过使用交换机集群手艺,保证对外与防火墙/NAT和对内汇聚交换机连接的冗余。汇聚层交换设备通过使用交换机集群技术,保证对外与核心层交换设备和数据中心内接入层交换机连接的冗余。接入交换机通过使用交换机堆叠技巧,保证对外与汇聚层交换设备和对内虚拟网络层连接的冗余。虚拟网络层通过采用多网卡绑定等技术避免单个网卡故障引发的业务中断。

  • 网络分平面通信

架构通信平面划分为业务&管理平面、存储平面。为了保证各种网络平面数据的可靠性,不同平面间采用VLAN等技术进行隔离,单个平面故障不影响其余平面的正常工作。

业务平面:主要为Pod的通信与管理平面,提供业务与管理通信。

存储平面:主要为NAS文件存储提供通信平面,并为Pod提供存储资源

  • 网卡负荷分担

无缝的,服务不会中断。就是对于各通信平面(业务、存储、管理)均采用双网卡,双网卡采用了Bonding模式,两网卡被绑定成逻辑上的“一块网卡”后,同步一起工作。既能对服务器的访问流量进行负荷分担,又能保证其中一块发生故障的时候,另外的网卡立刻接管全部负载,过程

(4)平台可靠性

  • 计算和存储集群分离

通过采用计算集群和存储集群相分离的架构,提升系统的可靠性。计算集群搞定Pod的按需分配以及集群内的资源共享,存储集群完成Pod用户空间的按需分配以及跨磁盘的存放。

  • 管理节点HA

管理软件节点采用主备的方式运行。当一个主管理节点出现故障的时候,系统自动切换到备用节点,保证整个系统不间断运行。

  • 故障检测

支撑服务器、软件和资源的监控。凭借在每个被监控的节点上运行检测程序,架构能够收集服务器的核心指标如CPU利用情况、基础网络流量和内存数据等,检测到诸如进程异常、管理和存储链路异常,节点异常、系统资源过载等各种故障,使系统具备完善的故障检测能力。

2.6 框架优势

系统可以整合现有IAAS 层的基础设施资源,简化AI开发复杂的过程,实现一站式AI 开发。用户经过深算工场,能够根据自己需求申请到自己想要的IT资源如CPU、GPU、内存、硬盘以及AI编写框架,实现秒级的 AI 开发/训练环境创建,从而有效的解决环境部署繁琐、资源配比不合理、资源利用率低等问题。

具备如下特点:

  • 开放独立

开放、中立和融合的 AI 平台技术产品和服务,支持多种开源深度学习框架,不绑定任何特定的技能和服务框架。

  • 弹性灵活

可随时根据需求创建深度学习训练环境,给予多种可选资源配置选择,可以满足多种业务场景需求。

  • 开箱即用

开箱即支撑 TensorFlow、Caffe 和 PyTorch 等多种深度学习框架,无需安装配置环境,无需进行性能调优,只需上传代码、数据和配置参数,即可迅速提交训练任务。

  • 节约成本

高效的资源优化调度和管理显著地降低资源采用和运维成本;多种计费模式极大地降低前期投入。

  • 安全服务

平台完善的隔离及网络监控服务,保障用户数据和服务安全无虞。

(1)节约成本

  • 资源弹性伸缩

AI平台环境下,所有资源都集中在数据中心,达成资源的集中管控,弹性调度。管理员可实时对服务器和用户业务环境中 GPU、CPU、磁盘等各类资源使用率等指标进行数据统计与审计,分析目前物理机、用户环境资源的状况,进而实时调整资源分配。

  • 提升资源利用率

资源的集中管理与分配,提高了资源利用率。传统AI科研方式的服务器或工作站的CPU/GPU平均利用率不足30%,在深算工场环境下,云数据中心的CPU/GPU利用率可控制在75%左右。

用户投入成本较多的基础设施,同时在大多数场景下GPU利用率较低,因此深算工场给出多种GPU共享技术,提升用户GPU利用率:就是GPU是机器/深度学习领域IaaS层核心算力之一,

vGPU:采用“一虚多”即把服务器上的物理显卡按照显存、算力等进行切割,形成多张vGPU卡供给多个用户和环境使用,vGPU之间逻辑隔离,用户只能使用到挂载到任务本身的vGPU算力;

vNPU:针对华为昇腾Atlas卡,同样具备“一虚多”能力,对昇腾训练推理卡按照AI core 进行切割,满足一卡多任务运行的需求;

GPU共享:采用“一对多”即把服务器的物理显卡同时挂载给多个用户和环境利用,不做逻辑隔离,任务之间采用竞争方式占据显卡的算力;

(2)极致的性能

借助虚拟机、K8S等云计算技术打造的深算工场平台具备并行、高吞吐、低时延的极致性能,结合超强算力的 GPU 集群的支撑,相较于传统IT架构,计算性能提升10倍以上。

用户在平台上可以进行秒级的业务创建,实验AI 环境的快速部署;同时借助于分布式训练模式,构建单机多卡、多机多卡的高效训练,大幅度提升模型训练能力,充分释放计算集群性能。

(3)灵活的部署方式

框架提供灵活的部署方式,包括私有本地部署、公有云形式部署等。同时平台对硬件要求极低,在通用的X86服务器和国产设备器如华为鲲鹏、飞腾、昇腾NPU等算力进行优化。

(4)原厂服务保驾护航

服务由原厂商提供,海文具备专业的交付与售后支持团队,可快速解决后期障碍,以及接纳客户的定制化需求。

提供24小时不间断的技术支持服务,针对用户出现的问题第一时间进行处理,保障客户业务的连续性。

posted @ 2025-11-30 09:35  gccbuaa  阅读(0)  评论(0)    收藏  举报