算力狂飙!万级并发如何管理?2025报告揭秘!
在我国数字经济蓬勃发展的大背景下,实体经济、数字经济和信息服务的融合进程不断加速,产业数字化与数字产业化变革日新月异。算力,作为承载信息数据的关键基础设施,已成为全社会数字化转型的核心支撑。据中国信息通信研究院发布的《中国算力发展指数白皮书(2024 年)》所示,截至 2024 年,我国智能算力规模飙升至 478.5EFlops,增速高达 180%,在全国算力占比中占据 70% 的份额,成为推动算
一、研究背景
在我国数字经济蓬勃发展的大背景下,实体经济、数字经济和信息服务的融合进程不断加速,产业数字化与数字产业化变革日新月异。算力,作为承载信息数据的关键基础设施,已成为全社会数字化转型的核心支撑。据中国信息通信研究院发布的《中国算力发展指数白皮书(2024 年)》所示,截至 2024 年,我国智能算力规模飙升至 478.5EFlops,增速高达 180%,在全国算力占比中占据 70% 的份额,成为推动算力快速增长的核心驱动力。

与此同时,随着人工智能、元宇宙、高性能计算等前沿领域的迅猛发展,非结构化数据(如文本、图片、语音、视频等)呈爆发式增长。
IDC 等权威机构预测,到 2025 年,全球新增数据量将达到 180ZB,其中 80% 源于非结构化数据。这一趋势催生了大量智能数据处理需求与场景,对新型智能算力的渴望愈发强烈。
在此形势下,深入研究典型智能计算应用对异构算力的协同及调度需求迫在眉睫。
本研究聚焦于泛在异构算力参与训练或推理过程中的协同需求,涵盖异构算力类型、规模、性能、网络及数据传输等多方面要求;同时,全面剖析异构算力协同的应用场景特点,充分考虑同数据中心、跨数据中心、跨云边端多级以及池化和非池化异构算力并存等复杂场景下,算力协同的实际需求与可行性。
此外,还将深入探讨异构算力资源的分类整合、池化重构和智能分配等关键技术方案,以及分布式异构算力资源管理技术方案,包括对跨数据中心、边缘及端侧的 GPU、FPGA 等异构算力设备的管理,已虚拟化或池化的异构硬件的管控,异构算力资源的标识与监控方案,算力细粒度切分供给技术,以及计算任务与异构算力的匹配和调度技术等,旨在构建面向多样化异构算力资源和上层多场景需求的多元异构算力统一调度架构,实现资源的实时感知、抽象响应和精准应用调度。
二、异构算力的发展和应用场景需求
(一)异构算力的发展情况
异构算力是由 CPU、GPU、FPGA、ASIC 等多种不同的算力处理体系构成,它们各司其职,共同满足不同场景的应用需求,致力于实现计算效力的最大化。AI 芯片作为 AI 算力的核心基础设施,常以集成的形式存在于计算机中。近年来,面向特定领域体系结构的定制化芯片如雨后春笋般不断涌现,已然成为 AI 算力发展的主流方向。当下,异构算力主要包含以下几种类型:
GPU:英伟达 GPU 的发展历程可追溯至 1999 年,其发布的第一代 GPU 架构 GeForce 256,正式拉开了 GPU 时代的帷幕。此后,英伟达的 GPU 架构历经多次升级,从 TNT、Rage 到 Geforce 256,再到 Tesla、Fermi、Kepler、Maxwell 等,持续演进以契合日益增长的计算需求。这些架构的升级,有力推动了图形渲染、人工智能和高性能计算等领域的发展。近年来,英伟达相继推出 Turing、Ampere 等多款高性能 GPU 芯片,为各类应用提供了强大的计算动力。2022 年 3 月,英伟达推出的 HGX H100,拥有高达 18432 个 FP32(单精度)和 9216 个 FP64(双精度)的 CUDA 核心,并配备 576 个第四代 Tensor 核心。2023 年 11 月,英伟达再次发力,升级 GPU 产品线,发布 HGX H200。这款全新的 AI 计算平台在 H100 的基础上全面升级,配备 141GB 的下一代 HBM3e 内存,一跃成为英伟达目前最强的人工智能芯片。
APU:APU(Accelerated Processing Unit),中文名为加速处理器,由 AMD 将中央处理器和独显核心集成在同一晶片上。它兼具高性能处理器和最新独立显卡的处理性能,支持 DX11 游戏和最新应用的 “加速运算”,显著提升了电脑的运行效率。自 2010 年起,AMD 陆续推出 GCN 架构、RDNA 架构、RDNA2 架构、RDNA3 架构、CDNA 架构和 CDNA2 架构。其中,最新一代面向高性能计算和人工智能的 CDNA2 架构,采用增强型 Matrix Core 技术,支持更广泛的数据类型和应用场景,针对高性能计算工作负载实现了全速率双精度和全新 FP64 矩阵运算。基于 CDNA2 架构的 AMD Instinct MI250X GPU,其 FP64 双精度运算算力最高可达 95.7TFLOPs。
TPU:TPU 是 Google 推出的人工智能芯片 Tensor Processing Unit,并在此基础上陆续推出 TPUv4 等若干代 TPU 以及 TPU Edge。TPU 专为优化 Google 自身的 TensorFlow 机器学习框架而打造,是计算神经网络的专用芯片。
FPGA:FPGA 作为一种灵活可编程的硬件平台,具备出色的计算性能和高度可定制性,能够为 AI 算法提供有效的加速和优化。在 AI 应用中,它可用于构建神经网络加速器、高性能计算单元等,为计算密集型的 AI 任务提供高性能、低延迟的计算支持。例如,英特尔 Stratix 10 NX FPGA 专为 AI 设计,拥有 AI 张量块,其中包含密集的低精度乘法器阵列,针对矩阵和向量乘法进行了优化,可执行 INT4、INT8、Block FP12 或 Block FP16 操作,并且这些张量块可级联使用,以支持大型矩阵运算。
ASIC:相较于 CPU 和 GPU 等通用芯片,ASIC 芯片的定制化特性使其具备更高的效率,这一优势吸引了 NVIDIA、AMD 和英特尔等科技巨头的关注。行业内可能会采用混合技术推动创新发展,如 NVIDIA 就一直在研发自己的 AI 专用芯片 Tensor Cores。随着亚马逊、微软和百度等科技巨头纷纷涉足定制 ASIC 领域,这项新技术在 AI 处理中必将发挥愈发重要的作用。目前,ASIC 领域在可扩展性、可负担性和实施方面仍在持续攻关。
DPU:DPU 主要服务于云计算领域,其核心作用是提升数据中心等算力基础设施的效率,减少能耗浪费,进而降低运营成本。随着数据中心建设规模的不断扩大、网络带宽和数据量的急剧增长,由于 CPU 性能增长逐渐放缓,为寻求更高效率的计算芯片,DPU 应运而生。例如,英伟达于 2020 年将 Mellanox 的 ConnectX 系列高速网卡技术与自身已有技术相结合,成功推出两款 DPU 产品 BlueField - 2 DPU 和 BlueField - 2X DPU。
(二)异构算力的主要应用场景
异构计算充分发挥不同类型处理器的独特优势,如 GPU 强大的并行计算能力和 FPGA 灵活的定制化硬件设计能力,从而有效提升计算性能和功率效率。其应用领域极为广泛,涵盖人工智能领域的深度神经网络训练、科学计算领域的模拟与数据处理、物理仿真以及计算机视觉等。
此外,在移动设备和嵌入式系统等对功率和性能要求严苛的领域,异构计算同样大显身手,能够使这些设备更加智能化,同时提升其性能和功率效率。概括而言,异构算力的主要应用场景包括:
机器学习和深度学习:异构计算借助 AI 算力的并行处理能力,能够显著加速机器学习和深度学习的训练与推理进程。例如,利用 GPU 进行大规模矩阵运算,可大幅提高训练速度和模型准确率。
高性能计算(HPC)等科学计算场景:在科学研究、工程仿真等领域,数据处理量极为庞大,传统 CPU 计算已难以满足需求。异构计算通过 CPU 和 GPU 联合运算的方式,能够实现更高的计算性能和效率。
图形处理渲染和游戏开发:异构计算利用 AI 算力的并行处理能力,可实现图像的实时渲染与处理。在游戏开发中,借助 GPU 卡加速,能够呈现更加逼真的光影效果和更高的帧率。
物联网(IoT):物联网设备数量庞大,面临着海量的数据处理和管理任务。通过异构计算,可实现物联网设备的智能化管理和数据处理,提升物联网应用的效率和可靠性。例如,采用 CPU + GPU 或者 CPU + FPGA + GPU 等异构算力联合的方式,能够实现更高的计算性能和效率。
区块链:区块链技术对交易的安全性和可靠性要求极高,同时需要处理大量交易数据。异构计算可利用 FPGA 进行加密计算,提高区块链的运算速度和安全性。
除上述典型应用场景外,不同行业对异构智能算力的整体需求呈现出差异化分布的特点。据信通院与 IDC 的最新统计数据,互联网行业由于对数据处理和模型训练的需求持续增长,成为智能算力需求最大的行业,占智能算力份额的 53%;服务行业因快速从传统模式向新兴模式转型,其算力份额占比位居第二;政府、电信、制造、金融、教育等行业则分列第三至八位。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

三、分布式异构算力管理和调度的关键技术能力
异构算力的多元性和泛在性,给算力管理平台带来了全新的挑战。异构算力管理平台需实现对多种异构算力的有效管理与调度,并为智算应用提供应用层的推理和训练技术栈支持,主要具备以下核心能力:
动态资源管理:负责管理 CPU、GPU、FPGA 等异构算力的注册与接入,掌握算力拓扑信息及实时状态信息,实现对算力资源的虚拟化和池化重构,提供细粒度的资源管理与隔离。
资源调度编排:实现异构算力节点的灵活调度,完成任务与节点资源的合理编排,多借助容器技术基于 Kubernetes 定制化研发,以实现对任务和资源的灵活编排调度,为上层功能模块提供可靠的资源能力。
异构算力适配:提供从底层驱动到应用层框架的整体技术栈适配支持,确保应用能够在不同算力节点上实现弹性迁移调度,例如支持不同异构硬件的算子库、编译器、开发工具等。
支撑智算的平台能力:基于底层异构算力,为智算应用提供数据处理、AI 训练推理框架、模型服务等功能支持。
分布式异构算力的管理和调度是分布式异构算力平台的核心功能,其关键技术主要包括:
(一)异构算力的虚拟化和池化
异构算力虚拟化和池化是指在计算环境中,对 CPU、GPU、FPGA 等不同类型的计算资源进行虚拟化处理,并实施池化管理。通过异构资源的虚拟化、池化等资源重构技术方案,能够整合硬件资源,构建同类资源池,提升计算资源的利用率和灵活性,更好地满足不同应用的多样化需求。
异构算力虚拟化,即将不同类型的计算资源进行虚拟化处理,使其可被多个应用程序或用户共享与管理。这种技术能够显著提高计算资源的利用率和灵活性,例如将 GPU 资源虚拟化后供应用程序使用,以满足不同应用对算力的需求。而池化则是将异构计算资源汇聚到一个统一的资源池中,通过统一管理和调度,按需分配给不同的应用程序或用户。这种方式能够有效提高整体资源利用率,减少资源浪费,同时更灵活地满足不同应用对算力的动态需求。
目前,典型的 GPU 虚拟化技术实现方案有 MIG 和 vGPU。MIG(Multi - Instance GPU)作为 Ampere 以及后续 Hopper 架构推出的新特性,有效解决了 Ampere、Hopper 等大 GPU 在集群服务应用时对 GPU 切分与虚拟化的需求。
MIG 分割出的每个 GPU 实例都拥有独立完整的内存系统 L2 缓存、内存控制器、DRAM 地址总线等,这种切分方式有利于容错、提高吞吐率以及预测延迟。MIG 的基本操作是对物理卡上的物理资源进行分块与组合,包括系统通道、控制总线、算力单元(TPC)、全局显存、L2 缓存、数据总线等;然后将分块后的资源重新组合,确保每个切分子 GPU 实现数据保护、故障隔离和服务稳定。
MIG 可动态创建和销毁,但未分配的 GPU 无法被使用。其资源创建需经过两次划分,先划分 GI 资源,再划分 CI 资源,通过排列组合增加配置多样性,但组合必须遵循 MIG 设定的(profile)规则。
基于 vGPU 的虚拟化方案由 Nvdia 率先推出,vGPU 技术允许用户按照规范对 GPU 的计算资源进行切分,即将一块 GPU 卡的计算能力切片,分成多个逻辑上虚拟的 GPU,以 vGPU 为单位分配 GPU 的计算能力,实现单块 GPU 卡供多台虚拟机使用。
其本质是通过硬件支持和驱动软件配置,将部分 GPU 资源暴露给用户。同时,为丰富 GPU 虚拟化能力,vGPU 还支持多种调度机制,如 Round - Robin 调度算法、Equal Share Scheduling 算法、Fixed Share Scheduling 机制等,使不同容器能够安全共享一张物理 GPU,提高 GPU 利用率。
智能算力池化旨在利用软件定义技术,通过高速无损网络将 CPU、GPU、AI 芯片等算力资源进行池化整合,实现资源的集中调度和按需分配,充分发挥资源效能,降低碎片概率,提高总体有效算力。在池化技术下,资源分配方式发生了根本性变革,软件深度介入资源的算力供给,为实现更敏捷的资源管理模式(如动态伸缩、资源超分等)奠定了技术基础,为持续优化智算资源利用率创造了广阔空间。池化技术主要通过以下两种方式实现软件定义的资源分配:
API 劫持技术:这是当前较为常用的针对智能算力的池化技术,通过劫持对 Runtime API(如 CUDA API)的调用实现资源调度。当 AI 应用访问池化运行时的 API 时,请求被池化运行时转递至池化服务代理执行,池化服务代理具备敏捷化的资源管理功能,能够以 1% 算力、1MB 缓存的精度进行细粒度资源分配,并实现跨节点远程调用资源。然而,由于 GPU/AI 芯片种类繁多、型号各异,且原生运行时升级频繁,池化运行时仿真 GPU/AI 芯片原生运行时的工作难度较大,开发量和维护成本较高。
应用程序监视器技术:这是一种与 GPU/AI 芯片无关的设备虚拟化和远程处理方法,能够在无需显式软件支持的情况下,启用新的硬件体系结构。该技术通过应用程序监视器工作,监视器分为前端和后端,类似 Hypervisor 管理虚拟机的方式。前端负责监视指定应用程序的活动,并将相关信息拦截至后端处理。后端可根据应用程序的申请数量分配资源,或将应用程序拆分到多台机器上运行,在保持代码、数据和执行环境一致性的前提下,充分利用这些机器上的智算资源,实现资源的细粒度管理和远程调用等敏捷化管理功能。
(二)分布式异构算力的调度能力
分布式异构算力的调度旨在实现底层算力资源与上层应用的精准匹配,通过节点的动态调度和异构算力节点间的协同合作,为上层智算应用赋能。
然而,跨异构计算节点支撑统一智算应用的调度面临诸多技术挑战,尤其是非同质节点的调度,存在技术壁垒。由于不同 GPU 等异构硬件在支撑智算应用时,依赖不同的技术栈,包括底层的 CUDA、编译器、前端 AI 框架等。
例如,运行在英伟达 GPU 上的应用无法直接无缝调度到国产化 GPU 上运行,也难以将运行在 GPU 上的程序不经适配直接运行在 FPGA 上。技术栈的差异导致智算应用目前难以在不同异构算力节点上无缝迁移或同步运行,通常需要对应用进行适配改造,才能实现跨异构算力节点的任务调度。
产业界也在积极探索跨架构迁移技术,中国移动提出的算力原生相关技术,能够支持模型推理在跨异构节点的统一编译,打通不同异构节点的技术栈,为应用在跨异构节点间的调度提供了一定的技术基础。
异构算力资源的调度不仅要考虑异构算力自身的特性,还需关注算力资源的实时状态以及与算力任务的匹配度。当前,智算算力集群和资源管理大多采用容器和 K8s 管理体系。在异构算力环境下,K8s 通过扩展设备插件,实现对不同异构算力的识别与管理。
算力设备厂商按照 device plugin 的接口规范开发自己的 device plugin,并以 daemonset 形式部署到节点,通过与 kubelet 交互,完成设备资源的发现、健康检测和分配等操作。当 K8s 集群具备管理异构算力的能力后,便可基于其系统调度能力,对异构算力进行有效管理。
以 Kubeflow 平台为例,GPU 资源的管理和调度通过 GPU 插件实现。当用户提交 GPU 任务时,Kubernetes 的 GPU 插件首先检测系统中可用的 GPU 资源,并根据用户需求为任务分配相应数量的 GPU 资源。插件会依据任务需求和系统中 GPU 资源的实际情况,选择合适的 GPU 设备挂载到对应的 Pod。
在集群初始化阶段,K8s 通过设备管理将特定类型的硬件资源注册到 Kubernetes 集群,并提供 API 接口进行资源管理。当 Kubernetes 调度器为任务分配 GPU 资源时,通过 DevicePlugin 接口获取可用 GPU 资源,并根据任务需求选择最佳的 GPU 设备进行分配。
Kubeflow 的 API 可用于查询 GPU 资源的可用性和使用情况。用户也可使用 Jupyter Notebook 创建、编辑和运行深度学习任务,在创建训练用的 Jypyter Notebook 时,系统会为对应的 Pod 分配整数块的 GPU 资源。若要实现任务的细粒度管理,可采用 GPU - Share 方式,实现多个 Pod 之间的 GPU 共享。
目前,分布式异构算力管理平台支持的主流调度机制包括:
基于 Gang scheduling 的批量调度策略:支持在并发系统中,将多个相关联的进程同时调度到不同异构算力上运行。
网络拓扑调度:对集群网络进行标识和描述,依据异构算力所在的网络状态,制定调度策略,对不同的集群网络进行调度决策。
基于实时资源状态调度:根据异构节点的实时资源状态,如 CPU、GPU 等实时可用资源情况进行调度。
基于任务优先级等状态调度:结合应用任务的状态和需求,以及与底层异构算力的状态和属性进行匹配调度。
指定异构算力节点或集群调度:明确资源需求的定向调度,根据异构算力的标识,进行定向的调度决策。
基于负载均衡策略进行节点间调度:在异构算力节点间通过应用轮询法、随机法、源地址哈希法、加权轮询法等负载均衡的算法,有效地提高计算资源的利用率,减少系统等待时间和响应时间,提高系统的整体性能和效率。
在具体的应用场景中,可根据应用的特定需求和优化目标以及当前算力基本情况,选择一种或多种不同的调度机制。
另一方面,产业界当前的另一研究热点方向是节点内混合异构计算系统内异构算力的协同。目前 GPU 为应用最广泛的 AI 芯片,除此之外 FPGA、NPU、ASIC 等形态的算力也被广泛应用于不同的使用场景。
在混合异构系统的调度中,由于 CPU 负责对计算机的硬件资源进行控制调配,也要负责操作系统的运行,计算系统中仍是不可或缺的,GPU、FPGA 等芯片都是作为 CPU 的加速器而存在。
主流的混合异构系统包括面向 CPU+GPU 架构的混合异构系统,程序的串行部分在 CPU 上运行,而并行部分则在 GPU 上运行,是该种混合架构调度技术的核心思想。
CPU 和 GPU 的结合刚好可以解决深度学习模型训练在 CPU 上耗时长的问题,提升深度学习模型的训练效率,同时共享内存空间,消除冗余内存副本来改善问题,处理器不再需要将数据复制到自己的专用内存池来访问 / 更改该数据;面向 CPU+GPU+DPU 架构的混合异构系统,DPU 参与的混合架构的调度,其核心是将任务从 CPU “卸载”,释放了宝贵的 CPU 资源,使得更多 CPU 核心可用于处理应用程序,从而大大提高数据中心的效率,减少了能源浪费,降低成本,除此之外,还有面向 CPU+TPU 架构的混合异构系统等。
当前混合异构系统所涉及的异构算力资源间的调度多是在节点内或者是片间完成的,对于在跨节点间甚至广域分布式的范围实现这样的调度还有很多技术难点需要攻克。
(三)分布式异构算力的度量和标识
不同应用对算力的需求不同,异构算力支撑同一应用也具有较大的性能表现差异性,因此对分布式异构算力的度量和标识,也将进一步提高算力的细粒度管理能力,提升整体算力使用效率。
在算力的度量方面,业界目前已经开始了对异构算力度量的研究和标准化工作。在 CCSA TC1 中立项了《算力网络异构算力资源度量指标》、《算力网络算力节点能力度量及评估方法》的标准,从设备静态参数、动态度量指标和综合性能指标对算力指标进行不同维度的评估。
设备静态参数反映了从设备硬件自身设计和生产的标称能力,动态度量指标反映了异构算力在动态情况下瞬时的处理能力,而综合性能指标则是从浮点运算能力等角度出发对算力进行综合评估。
也有相关研究从逻辑运算能力、并行运算能力和神经网络计算能力的评估三方面对异构算力进行评估和度量。其中,逻辑运算能力是一种通用的基础运算能力,以 CPU 为代表。
由于 CPU 芯片需要大量的空间去放置存储单元和控制单元,相比之下计算单元只占据了很小的一部分,所以它在大规模并行计算能力上极受限制,而更擅长于逻辑控制。度量单位一般的可以用 TOPS 来衡量其运算能力;并行计算能力是指专门为了处理如图形图像等数据类型统一的一种高效计算能力,典型的硬件芯片代表如 GPU,从架构来看,GPU 有数量众多的计算单元和超长的流水线,常用浮点运算能力来衡量;神经网络计算能力主要针对近年来 AI 神经网络、机器学习类密集计算型业务进行加速的能力,例如 TPU、NPU 等。
在算力的标识方面,异构算力标识为算力调度、算力溯源、算力交易的基础,产业界也已经开始对算力标识的整体架构开展相关研究,对异构算力形成统一的能力抽象,并提供相应的接口服务,供算力调度或者算力交易等模块或平台调用。
四、当前业界技术实现情况
异构 AI 算力的管理和调度平台,能够兼容适配多种形态智能 AI 硬件,实现硬件与计算要求有效对接、异构算力在节点间灵活调度、同时协同提供智算相关处理流程,将各类异构算力协同处理来发挥最大的计算效力,为多样化 AI 应用场景提供高性能、高可靠的算力支撑。当前产业界的各种智算平台已经对异构算力的管理和调度开展了不同技术方向的探索。
(一)中国移动智算体系实现异构资源池化
中国移动智算中心基于移动云底座的 IaaS 能力,管理算力基础设施层的各类硬件资源,向上提供智算类业务所需任务式服务,构建一体化的 AI 新型智算体系。
在整体方案上,智算中心划分为大模型训练池、小模型训练池及推理池。中国移动将在小模型训练池中,采用自研的容器基础设施 EKI 叠加相关池化模块,通过基于 API 劫持的池化技术,实现 CPU、GPU/AI 芯片、块存储 / 文件存储资源等基于高速无损网络的统一管理与调度,实现对智能算力的几大关键能力。
包括算力的精细化分配,根据 AI 任务的资源需求进行按需供给,契合多样化业务的差异需求,基于高速无损网络,跨节点调取 GPU、AI 芯片等智能算力资源,使能 CPU 传统算力及 GPU、AI 芯片智能算力高度解耦,进一步降低碎片化比例,同时支持资源根据负载变化的动态分配、回收,支持全局资源可以适度超分,促进资源效率提升。
该技术方案持实现资源跨节点远程调用、零散资源整合等,从而达到算力资源充分利用、碎片最小化效果,可有效提升资源效率,降低智算中心整体建设成本。
(二)浪潮 AIStation 平台实现异构资源管理调度
浪潮人工智能平台提供统一的主流深度学习框架(Tensorflow、Pytorch、Caffe、Mxnet、PaddlePaddle)开发训练平台以及计算资源 (CPU、GPU、内存、存储) 管理的平台,简称 AIStation。通过 AIStation,可以实现物理计算资源(CPU、GPU、内存、存储)的统一管理与监控,实现基础资源服务管理,快速开展人工智能相关业务的开发和部署。
关于异构算力的接入和管理,AIStation 人工智能开发平台实现对基础设施的统一管控、形成资源池,由 Kubernetes 系统统一调度。AIStation 人工智能开发平台可为用户分配使用配额。
AIStation 提供了插件化设计,能够实现包括 GPU、寒武纪、昇腾 Ascend、天垓等异构加速卡的配置化接入。平台默认接入 GPU 资源,接入其他加速卡资源时,平台 UI 会自动适配展示。AIStation 接入加速卡后,能够通过平台发起训练任务、开发环境、模型测试等计算任务,并能够对加速卡进行监控报警、也对加速卡的使用情况自动进行适配统计展示。
关于异构算力的调度,AIStation 人工智能开发平台调度系统提供资源分配能力,在提高集群资源利用率的同时,尽可能的提高任务的性能,目前支持的可调度资源包括 CPU、内存、GPU、IB 卡。
目前 AIStation 调度器支持的主要策略包括:
Gang scheduling:提交 Job 后,只有当满足 Job 中全部 Task 的需求时,才会调度成功,否则全部 Task 会处于 pending 状态,等到资源充足时,全部 Task 才会完成调度。
网络拓扑调度:支持集群管理两种网络类型:IB 网络和以太网网络,同时支持按照接入交换机进行调度,尽量将任务调度在一个交换机内,避免跨交换机的通信损耗。
GPU 共享调度:提供 GPU 细粒度调度,允许多个任务指定 GPU 显存,调度到同一张 GPU 卡,从而实现 GPU 卡的复用,提高 GPU 卡的使用率。提交任务时指定需要个 GPU 卡,每个 GPU 卡需要占用多少显存量。
指定主机调度:创建任务时,允许指定一组主机,任务只能允许被调度到这组主机内。
紧急任务调度:内置紧急任务队列,用户提交的训练任务带有紧急任务队列属性时,会将该紧急任务放到该紧急队列,在紧急任务队列的任务有最高的调度优先级,调度器在处理完全部的紧急任务后,才会处理其他任务。
用户组公平调度:提供基于用户组公平的调度机制,业务层创建不同的用户组,调度器会为每个用户组创建对应的调度队列,相同用户组的用户提交的训练任务会进入一队列,调度器循环选择每一个用户组的任务进行调度。
GPU 细粒度调度:GPU 卡整块显存按预置显存粒度大小分割为多个粒度切片,即对 GPU 卡显存进行切片隔离。提交任务时指定需要切片的显存粒度大小(如:4G 或 8G 等),和显存粒度分片数量。作业就会调度到合适显存粒度切片的 GPU 卡上。
GPU 负载调度:调度器采集并统计集群节点的 GPU 卡负载数据,数据包括 GPU 利用率和 GPU 显存利用率。调度器根据节点 GPU 卡负载信息执行作业调度,为作业计算性能考虑,优先选择 GPU 负载较低的节点和 GPU 卡。
数据集亲和性调度:调度器处理更新集群节点已缓存的数据集信息,根据节点缓存数据集和作业所需数据集信息执行作业调度,优先选择作业所需数据集匹配命中缓存数据集的节点。
超时任务优先调度:若一个任务因资源不足而继续等待调度,就开始对同一资源组中 “比它优先级低并调度成功的任务” 计数。如果计数达到阈值后该等待任务仍然未得到足够资源,则在同一资源组中,优先调度这个等待任务。该特性保证在资源紧张的情况下请求资源较多的任务也能及时调度成功。
(三)新华三傲飞平台实现异构资源管理调度
H3C 傲飞高性能计算管理平台(Advanced Management Platform for HPC and AI 简称 AMPHA)基于 Kubernetes 和 Slurm 自主开发的 AI 和 HPC 资源一体化管理的集群管理平台,支持在不改变 AI 和 HPC 用户习惯的前提下,实现 AI 和 HPC 资源的灵活调配管理。实现了 AI 和 HPC 两个业务模块的统一调度、统一用户 \ 用户组管理、统一文件 \ 文件夹管理、统一计费、统一监控告警,实现了 AI 和 HPC 业务的融合。
傲飞平台支持精细化的 GPU 管理,支持 GPU MIG 切分,支持 vGPU 和显存分割。支持多种调度策略,包括 FIFO、Gang、抢占、回填、QoS 优先级、Best Fit、Spread 等,充分挖掘集群的算力。
傲飞平台基于兼容 Kubernetes 的基础自研容器服务平台为底座,向下封装对各类异构资源的统一管理,向上提供标准 Kubernetes 集群环境和 API,以运行各核心组件,实现资源运维管理、AI 任务调度和弹性伸缩、工作流编排、AI 作业生命周期管理、各种 AI 制品管理、统一运维等服务。
再向上针对 AI 生产流程(MLOps)中的主要环节,支持 AI 数据集管理,AI 模型开发、训练、评测,以及模型推理服务。而且通过同样的组件和工具,也可以支持云上 AI 服务、开源 AI 框架和第三方 AI 能力的集成。
AI 模块支持异构计算资源(CPU、GPU、AISC 卡)管理、容器管理。支持对于不同形态的算力资源进行约束限制,对用户使用的 CPU、GPU、内存、显存以及存储空间支持配额约束,防止个别用户长期过度占用系统资源,平台也实现了对各异构算力节点资源的状态监控、统计分析和告警。
五、总结与展望
随着以算力和网络为核心的新型基础设施体系的加快构建,算力多样化、泛在化已成为必然的趋势,实现分布式异构算力的管理和高效灵活调度,将进一步释放硬件资源优势,增强算力的整体利用率。在异构算力的管理调度方面,依然有待持续攻关,例如对异构算力的度量和评测,跨异构算力的应用适配等问题,逐步构成异构算力从硬件到软件的开放生态,增强行业应用能力,持续、有效的赋能智算产业的发展。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

一、大模型风口已至:月薪30K+的AI岗正在批量诞生

2025年大模型应用呈现爆发式增长,根据工信部最新数据:
国内大模型相关岗位缺口达47万
初级工程师平均薪资28K
70%企业存在"能用模型不会调优"的痛点
真实案例:某二本机械专业学员,通过4个月系统学习,成功拿到某AI医疗公司大模型优化岗offer,薪资直接翻3倍!
二、如何学习大模型 AI ?
🔥AI取代的不是人类,而是不会用AI的人!麦肯锡最新报告显示:掌握AI工具的从业者生产效率提升47%,薪资溢价达34%!🚀
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
1️⃣ 提示词工程:把ChatGPT从玩具变成生产工具
2️⃣ RAG系统:让大模型精准输出行业知识
3️⃣ 智能体开发:用AutoGPT打造24小时数字员工
📦熬了三个大夜整理的《AI进化工具包》送你:
✔️ 大厂内部LLM落地手册(含58个真实案例)
✔️ 提示词设计模板库(覆盖12大应用场景)
✔️ 私藏学习路径图(0基础到项目实战仅需90天)





第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
* 大模型 AI 能干什么?
* 大模型是怎样获得「智能」的?
* 用好 AI 的核心心法
* 大模型应用业务架构
* 大模型应用技术架构
* 代码示例:向 GPT-3.5 灌入新知识
* 提示工程的意义和核心思想
* Prompt 典型构成
* 指令调优方法论
* 思维链和思维树
* Prompt 攻击和防范
* …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
* 为什么要做 RAG
* 搭建一个简单的 ChatPDF
* 检索的基础概念
* 什么是向量表示(Embeddings)
* 向量数据库与向量检索
* 基于向量检索的 RAG
* 搭建 RAG 系统的扩展知识
* 混合检索与 RAG-Fusion 简介
* 向量模型本地部署
* …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
* 为什么要做 RAG
* 什么是模型
* 什么是模型训练
* 求解器 & 损失函数简介
* 小实验2:手写一个简单的神经网络并训练它
* 什么是训练/预训练/微调/轻量化微调
* Transformer结构简介
* 轻量化微调
* 实验数据集的构建
* …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
* 硬件选型
* 带你了解全球大模型
* 使用国产大模型服务
* 搭建 OpenAI 代理
* 热身:基于阿里云 PAI 部署 Stable Diffusion
* 在本地计算机运行大模型
* 大模型的私有化部署
* 基于 vLLM 部署大模型
* 案例:如何优雅地在阿里云私有部署开源大模型
* 部署一套开源 LLM 项目
* 内容安全
* 互联网信息服务算法备案
* …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)