2025⼤模型训练与推理硬件采购及配置指南

⽬前主流GPU⼤模型推理与训练性能⽐较。

扫地僧009

3300人浏览 · 2025-02-20 16:10:26

扫地僧009 · 2025-02-20 16:10:26 发布

深度学习&⼤模型训练与推理——硬件配置指南

content

Part 1.读懂GPU性能：GPU性能核⼼参数介绍
Part 2.现阶段主流显卡（从2080到H100）性能分析
Part 3.各类⼤模型推理、微调、预训练所需显存
Part 4.从个⼈实验到70B模型推理，各类场景下硬件配置⽅案推荐

公开课附赠独家硬件配置指南表

显卡性能排名表
显卡性价⽐排名表
热⻔显卡参数对⽐表

各参数⼤模型训练所需硬件表
各参数⼤模型微调&推理硬件表
不同需求下硬件配置表

一、读懂显卡参数，GPU核⼼性能参数介绍

常⻅的显卡介绍

RTX系列显卡的游戏性能：⼀分钱⼀分货。但是⼤模型⽅⾯的计算性能却并⾮如此。
例如4090游戏性能⼏乎是3090的两倍，但若换算为单位⼈⺠币可以买到的⼤模型训练性能，3090是4090的 1.5倍；

NVIDIA DGX H200产品介绍

GPU计算性能核⼼参数

CUDA Cores：CUDA核⼼
Tensor Cores：张量计算核⼼
GPU Memory：显存
FLOPS：每秒浮点计算次数
NVLink&NVSwitch：显卡桥接
TDP：最⼤功耗需求

GPU计算性能核⼼参数详细介绍

CUDA Cores：CUDA核⼼，是 NVIDIA GPU 的基础计算单元，负责执⾏并⾏计算任务；
Tensor Cores：张量计算核⼼，是专⻔设计⽤于矩阵运算的硬件单元，核⼼任务是加速矩阵乘法，特别是⽤于深度学习的张量运算，其中20系显卡开始加⼊张量核⼼；
GPU Memory：显存，决定了可以加载的模型⼤⼩、数据批量（Batch Size）以及中间激活值存储，显存不⾜会限制任务规模，甚⾄导致程序崩溃；
FLOPS：每秒浮点计算次数，是衡量 GPU 浮点运算性能的单位，代表GPU的理论性能；
NVLink&NVSwitch：显卡桥接技术，30系显卡取消了NVLink，替代⽅案是PCIE，⽬前 NVLink只⽤于企业级图形显卡；

PCIe、NVLink与NVSwitch技术⽅案介绍介绍与对⽐

RTX显卡信息

NVIDIA Gaming Graphics Card

英伟达官⽹地址：https://www.nvidia.com/en-us/geforce/graphics-cards/

3090 vs 4090显卡核⼼参数对⽐

CUDA Cores：增加了56%
Tensor Cores：提升了4.6倍
显存带宽：RTX 4090 带宽更⾼

（1,008 GB/s vs 936 GB/s）

RTX 4090 的第四代 Tensor Core 引⼊ FP8 ⽀持，更适合低精度推理任务。

A100 PCIe&SXM、A800显卡参数对⽐

A800是A100的“中国特供版”，在显存带宽和NVLink带宽上有所限制
其他参数都⼀样，两类卡性能差异不超过20%

NVIDIA显卡介绍列表：https://resources.nvidia.com/l/en-us-gpu?ncid=no-ncid

二、认识⽬前主流显卡，NVIDIA主流显卡命名规则

NVIDIA显卡主要分类及命名规则

NVIDIA各类显卡功能说明

NVIDIA各类显卡功能总结

三、⽬前主流GPU⼤模型推理与训练性能⽐较

主流GPU性能对⽐

说明：

不区分数据中⼼显卡和消费级显卡；
不区分原版显卡与中国特供版显卡；
统计信息截⽌到H100系列显卡；
显卡性能受架构、核⼼数、带宽等综合影响；

⬅️单卡推理&训练性能

与

每1块钱能买到的最⼤算⼒➡️

不同显卡性能对⽐-重要结论

H系列显卡性能在训练以及各精度训练⽅⾯⼤幅领先；
4090推理性能很强（强于A100），但训练能⼒不如A100，且受限于显存

⼤⼩和显存带宽，整体训练能⼒较弱；

3090的推理和训练的理论性能越是A100的60%，但同样受限于显存⼤⼩

和显存带宽，实际性能和A100差距较⼤，但仍不失为低成本模型训练；

A10、T4等显卡在深度学习推理与训练⽅⾯表现较差；

显卡性价⽐对⽐-重要结论

上述对⽐未考虑显卡本身运⾏稳定性与多卡集群带来的性能损耗，只⽤于在绝对环境下单卡性能对⽐；
单卡环境下，4080（16G）是性价⽐之王。但在集群环境下，考虑到数据传输损

耗和集群运⾏稳定性，A100/H100仍是⾸选；

2080ti 22G魔改版（约2400元）性价⽐超越4080，但使⽤有⼀定⻛险；
除了考虑集群架构外，还需要综合考虑旧版GPU在软件上的⼀些不适配问题。综合来看，从性价⽐⻆度考虑，推荐2080ti 22G>4080>3090>4090>2080 11G。

四、不同参数量的⼤模型，训练、微调、推理分别需要多⼤显存

不同尺⼨、不同精度⼤模型推理所需显存占⽤

不同尺⼨、不同精度⼤模型训练与微调所需显存占⽤

不同尺⼨、不同精度⼤模型推理推荐GPU

其中RTX 4090可等价替换为RTX 3090；
其中A100可替换为A800（国内特供）；
其中L40可替换为L20（国内特供）；

不同尺⼨、不同精度⼤模型预训练推荐GPU

其中RTX 4090可等价替换为RTX 3090；
其中A100可替换为A800（国内特供）；
其中L40可替换为L20（国内特供）；

不同尺⼨、不同精度⼤模型⾼效微调推荐GPU

其中RTX 4090可等价替换为RTX 3090；
其中A100可替换为A800（国内特供）；
其中L40可替换为L20（国内特供）；

五、不同使⽤场景下推荐GPU配置⽅案

个⼈学习、⼩型科研团队

单台服务器参考配置

需求分析：

推理&微调：7B-14B
模型训练：0.2B左右
并发个数：1-5
数据量规模：GB
显存需求预估：35G

基础配置：

GPU：2080ti 22G * 2
CPU：12代i5
内存：64G
硬盘：2T
价格预估：14000

进阶配置：

GPU：3090 * 2
CPU：12代i7
内存：64G
硬盘：2T
价格预估：14000

中⼩型科研团队、初创公司

单台服务器参考配置

需求分析：

推理&微调：14B-30B
模型训练：2B左右
并发个数：5-20
数据量规模：TB
显存需求预估：80G

基础配置：

GPU：2080ti 22G * 4
CPU：Intel ⾄强W3
内存：64G
硬盘：2T
价格预估：30000

进阶配置：

GPU：3090 * 4
CPU：Intel ⾄强W5
内存：128G
硬盘：2T
价格预估：47000

⼤型科研团队、中⼤型公司

单台服务器参考配置

需求分析：

推理&微调：70B
模型训练：7B左右
并发个数：5-200
数据量规模：10TB
显存需求预估：140G

基础配置：

GPU：L20 * 4
CPU：Intel ⾄强6133
内存：128G
硬盘：10T
价格预估：140000

进阶配置：

GPU：A100 40G * 4
CPU：Intel C621
内存：128G
硬盘：10T
价格预估：180000

不同使⽤场景下推荐GPU配置⽅案汇总

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

Chess用户界面设计：Tailwind CSS样式系统和组件库

GitHub推荐项目精选中的ch/chess是一个类似chess.com的多人在线象棋平台，它采用现代化的前端技术栈构建，尤其在用户界面设计上通过Tailwind CSS样式系统和组件库实现了优雅且功能丰富的交互体验。本文将深入探讨该项目如何利用Tailwind CSS打造一致的设计语言和高效的组件系统，为象棋爱好者提供沉浸式的游戏界面。## 🎨 Tailwind CSS样式系统：构建统一视

火山引擎 ADG 社区

终极指南：GPT-Engineer如何通过AI自动发现代码问题并提升质量

GPT-Engineer是一款强大的AI驱动代码工具，它能帮助开发者自动检测潜在代码问题、优化代码质量，让编程效率提升3倍以上。无论是新手还是资深开发者，都能通过这款工具轻松发现代码中的隐藏缺陷，减少调试时间，释放更多精力在创造性工作上。## 一键发现代码问题：GPT-Engineer的AI审查魔力GPT-Engineer的核心能力在于其内置的智能代码分析系统。通过集成Python代码格式

火山引擎 ADG 社区

SatDump中的纠错编码技术：从RS码到Turbo码的完整实现指南

在卫星数据传输过程中，信号往往会受到各种干扰，导致数据错误。SatDump作为一款通用卫星数据处理软件，集成了多种先进的纠错编码技术，确保从卫星接收到的数据能够准确解码。本文将深入解析SatDump中从Reed-Solomon（RS）码到Turbo码的实现细节，帮助读者理解这些技术如何保障卫星通信的可靠性。## 为什么纠错编码对卫星数据至关重要？卫星与地面站之间的通信链路面临着空间辐射、大