作者:新手村-小钻风 | 2025-08-17

专栏:大模型科普专栏

关键词:大模型、LLM、GPT、人工智能、深度学习、Transformer

—— 让每一次刷新,都能看懂大模型一点 ——

目录

1. 大模型训练需要多少算力?GPU、TPU、A100 的背后故事

GPT-4 训练(公开资料整理)

2. 大模型训练为什么这么烧钱?

2.1 显卡贵:A100/H100 一张顶一辆车

2.2 数据多:训练要“喂饱”模型

2.3 能耗高:电费也是大头

2.4 工程投入:不是“跑一遍代码”那么简单

3. 数据是大模型的“粮食”:预训练数据与指令微调

4. 大模型推理:为什么很“烧显存”?

4.1 显存占用公式

5. 大模型加速技术:蒸馏、量化、剪枝、LoRA

1. 大模型训练需要多少算力?GPU、TPU、A100 的背后故事

大模型最核心的“燃料”是 算力。训练一个 GPT-3 级别(1750 亿参数)的模型,大约需要 数千块 GPU 持续运转数周到数月

💡 小知识:GPT-3 训练 reportedly 花费了 几千万美元 的云算力成本。难怪现在大家说:“大模型是烧钱游戏。”

GPT-4 训练(公开资料整理)

项目 数值 / 说明
训练显卡数量 约 25,000 张 Nvidia A100 GPUs 同时用于训练 (klu.ai, thedecoding.net)
训练时长 约 90–100 天连续训练 (klu.ai, Medium)
训练 FLOPs 总量 约 2.15 × 10²⁵ FLOPs (IKANGAI, Epoch AI)
训练成本(计算资源) 约 6,300 万美元 (thedecoding.net, Team-GPT) 或超过 1 亿美元 (CUDO Compute, 维基百科, 华尔街日报)
若使用 H100 GPU 估算成本 约 2,100–2,200 万美元(基于同样 100 天训练周期假设) (Medium)
对比案例 DeepSeek-V3 只需要 557 万美元,≈ GPT-4 的 1/20。牛牛牛

2. 大模型训练为什么这么烧钱?

在大模型的世界里,“钱”主要烧在算力和数据上
一句话总结:GPU 像“黄金显卡”,数据像“粮食”,能耗像“隐形杀手”。

2.1 显卡贵:A100/H100 一张顶一辆车

大模型训练最常用的硬件是 NVIDIA A100/H100

  • 一张 A100 (80GB) 市场价在 10~15 万人民币,而训练 GPT-4 级别的模型往往需要 上万张显卡同时开工

  • 例如:Meta 的 LLaMA2-70B 模型训练 reportedly 使用了 超过 2000 张 A100,跑了数月

  • 算力规模一上来,硬件投入就是“亿”级别,这就是“贵”的第一层原因。

2.2 数据多:训练要“喂饱”模型

  • 模型训练需要的数据量动辄 TB ~ PB 级别

  • GPT-3 使用了 45TB 清洗后的文本数据

  • LLaMA 使用了 公开网络、书籍、论文等高质量数据

  • 数据获取、清洗、存储、传输,都是实打实的成本。可以理解为:模型吃的不是饭,是“信息大米”

2.3 能耗高:电费也是大头

  • 大模型训练期间,数千张 GPU 同时运行,功耗非常夸张。

  • 一张 A100 的功耗约 400W

  • 如果是 1 万张 GPU,功耗接近 4MW,相当于一座中型工厂。

2.4 工程投入:不是“跑一遍代码”那么简单

  • 分布式训练需要 复杂的并行算法 (数据并行、模型并行、流水并行)

  • 软件栈要依赖 NCCL、Megatron-LM、DeepSpeed 等工具;

  • 工程师团队需要不断调试,避免 GPU 闲置。

  • 所以,真正烧钱的不是一次训练,而是工程团队在不断尝试、失败、重来中消耗的算力和时间


3. 数据是大模型的“粮食”:预训练数据与指令微调

算力是发动机,但没有“油”也跑不动。对大模型来说,这个“油”就是 数据

  • 预训练(Pre-training):让模型在海量文本上“读书”,比如维基百科、论文、小说、代码……这一步类似小孩从小学到高中的“通识教育”。

  • 指令微调(Instruction Tuning):光有知识不够,还得学会“听人话”。这一步是通过人工标注的数据,教会模型如何按照用户指令作答,就像大学里专业课+实习。

  • 对齐(Alignment):比如 RLHF(人类反馈强化学习),就是让模型回答更符合人类期望,而不是乱跑题。

📌 可以这么理解
👉 预训练 = 模型“读了十年书”;
👉 指令微调 = “考上了好大学”;
👉 RLHF = “学会做人”。


4. 大模型推理:为什么很“烧显存”?

很多人用大模型时发现:推理(inference)也很卡,甚至一块 24GB 的显卡都带不动。这是为什么?

  • 参数量巨大:GPT-3 175B 参数,光存储权重就要几百 GB。推理时这些参数要加载到显存里,就像搬一座图书馆进内存。

  • 并行计算:显存不仅要放参数,还要存放激活值、中间计算结果,显存占用直接“爆炸”。

  • Batch & 长上下文:如果输入长文本,计算图更大,显存压力更高。

💡 举个比喻
显存就像餐厅厨房,厨师(GPU核心)再多也没用,如果厨房太小(显存不足),菜就做不出来。

4.1 显存占用公式

显存 ≈ 权重 + KV-Cache + 激活

权重 (FP16) = 参数量 × 2 Byte
KV-Cache    = 2 × 层数 × 隐藏维度 × 序列长度 × batch
激活        = batch × 序列长度 × 隐藏维度 × 层数
  • 权重 (FP16) = 参数量 × 2 Byte

  • KV-Cache = 2 × 层数 × 隐藏维度 × 序列长度 × batch

  • 激活 = batch × 序列长度 × 隐藏维度 × 层数

  • 70 B 模型 FP16:140 GB → 单卡 4090 24 G 直接 OOM

  • 32 k 长文本 KV-Cache 再占 32 GB,恐怖如斯!


5. 大模型加速技术:蒸馏、量化、剪枝、LoRA

既然训练和推理都很“烧钱”,研究者们就发明了一堆“黑科技”,让模型 更小、更快、更便宜

  • 知识蒸馏(Distillation):大模型教小模型,就像博士带硕士,把知识“压缩转移”。例如从 GPT-3 蒸馏出一个小模型,性能相近但更轻量。

  • 量化(Quantization):把 32 位浮点数压缩成 8 位/4 位,显存占用直接减半甚至更少。比如 INT8 量化,让显卡能多撑一阵。

  • 剪枝(Pruning):把模型里不重要的参数“剪掉”,像修树枝一样,让模型更精简。

  • LoRA(Low-Rank Adaptation):一种低成本微调方法,只更新模型的一小部分参数,就能快速适应新任务,常用于本地训练和开源模型。

📌 总结一句
这些技术就是 “减肥 + 提效”,让大模型能在消费级显卡、甚至手机上跑起来。


下一课预告:大模型科普专栏 · 第三章:《从代码到多模态,大模型正在改变世界》 ,关注专栏,第一时间获取更新!

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐