大模型科普专栏·第二章：算力、数据、推理、加速——解密“大模型”的幕后故事

大模型训练是典型的资本密集型技术，以GPT-4为例需要2.5万张A100显卡连续运行百天，算力成本超6300万美元。核心成本构成包括：1）硬件投入（单张A100售价超10万元）；2）海量数据清洗（GPT-3消耗45TB数据）；3）惊人能耗（万卡集群功耗达4MW）；4）复杂工程调试。推理阶段同样面临显存挑战，70B参数模型加载需140GB显存，长文本处理更需额外32GB。为降本增效，业界采用知识蒸馏

weixin_52286364

1383人浏览 · 2025-08-17 15:22:57

weixin_52286364 · 2025-08-17 15:22:57 发布

作者：新手村-小钻风 | 2025-08-17

专栏：大模型科普专栏

关键词：大模型、LLM、GPT、人工智能、深度学习、Transformer

—— 让每一次刷新，都能看懂大模型一点 ——

1. 大模型训练需要多少算力？GPU、TPU、A100 的背后故事

GPT-4 训练（公开资料整理）

2. 大模型训练为什么这么烧钱？

2.1 显卡贵：A100/H100 一张顶一辆车

2.2 数据多：训练要“喂饱”模型

2.3 能耗高：电费也是大头

2.4 工程投入：不是“跑一遍代码”那么简单

3. 数据是大模型的“粮食”：预训练数据与指令微调

4. 大模型推理：为什么很“烧显存”？

4.1 显存占用公式

5. 大模型加速技术：蒸馏、量化、剪枝、LoRA

1. 大模型训练需要多少算力？GPU、TPU、A100 的背后故事

大模型最核心的“燃料”是算力。训练一个 GPT-3 级别（1750 亿参数）的模型，大约需要 数千块 GPU 持续运转数周到数月。

💡 小知识：GPT-3 训练 reportedly 花费了 几千万美元 的云算力成本。难怪现在大家说：“大模型是烧钱游戏。”

GPT-4 训练（公开资料整理）

项目	数值 / 说明
训练显卡数量	约 25,000 张 Nvidia A100 GPUs 同时用于训练 (klu.ai, thedecoding.net)
训练时长	约 90–100 天连续训练 (klu.ai, Medium)
训练 FLOPs 总量	约 2.15 × 10²⁵ FLOPs (IKANGAI, Epoch AI)
训练成本（计算资源）	约 6,300 万美元 (thedecoding.net, Team-GPT) 或超过 1 亿美元 (CUDO Compute, 维基百科, 华尔街日报)
若使用 H100 GPU 估算成本	约 2,100–2,200 万美元（基于同样 100 天训练周期假设） (Medium)
对比案例	DeepSeek-V3 只需要 557 万美元，≈ GPT-4 的 1/20。牛牛牛

2. 大模型训练为什么这么烧钱？

在大模型的世界里，“钱”主要烧在算力和数据上。
一句话总结：GPU 像“黄金显卡”，数据像“粮食”，能耗像“隐形杀手”。

2.1 显卡贵：A100/H100 一张顶一辆车

大模型训练最常用的硬件是 NVIDIA A100/H100。

一张 A100 (80GB) 市场价在 10~15 万人民币，而训练 GPT-4 级别的模型往往需要 上万张显卡同时开工。
例如：Meta 的 LLaMA2-70B 模型训练 reportedly 使用了 超过 2000 张 A100，跑了数月。
算力规模一上来，硬件投入就是“亿”级别，这就是“贵”的第一层原因。

2.2 数据多：训练要“喂饱”模型

模型训练需要的数据量动辄 TB ~ PB 级别。
GPT-3 使用了 45TB 清洗后的文本数据；
LLaMA 使用了 公开网络、书籍、论文等高质量数据。
数据获取、清洗、存储、传输，都是实打实的成本。可以理解为：模型吃的不是饭，是“信息大米”。

2.3 能耗高：电费也是大头

大模型训练期间，数千张 GPU 同时运行，功耗非常夸张。
一张 A100 的功耗约 400W；
如果是 1 万张 GPU，功耗接近 4MW，相当于一座中型工厂。

2.4 工程投入：不是“跑一遍代码”那么简单

分布式训练需要 复杂的并行算法 (数据并行、模型并行、流水并行)；
软件栈要依赖 NCCL、Megatron-LM、DeepSpeed 等工具；
工程师团队需要不断调试，避免 GPU 闲置。
所以，真正烧钱的不是一次训练，而是工程团队在不断尝试、失败、重来中消耗的算力和时间。

3. 数据是大模型的“粮食”：预训练数据与指令微调

算力是发动机，但没有“油”也跑不动。对大模型来说，这个“油”就是数据。

预训练（Pre-training）：让模型在海量文本上“读书”，比如维基百科、论文、小说、代码……这一步类似小孩从小学到高中的“通识教育”。
指令微调（Instruction Tuning）：光有知识不够，还得学会“听人话”。这一步是通过人工标注的数据，教会模型如何按照用户指令作答，就像大学里专业课+实习。
对齐（Alignment）：比如 RLHF（人类反馈强化学习），就是让模型回答更符合人类期望，而不是乱跑题。

📌 可以这么理解：
👉 预训练 = 模型“读了十年书”；
👉 指令微调 = “考上了好大学”；
👉 RLHF = “学会做人”。

4. 大模型推理：为什么很“烧显存”？

很多人用大模型时发现：推理（inference）也很卡，甚至一块 24GB 的显卡都带不动。这是为什么？

参数量巨大：GPT-3 175B 参数，光存储权重就要几百 GB。推理时这些参数要加载到显存里，就像搬一座图书馆进内存。
并行计算：显存不仅要放参数，还要存放激活值、中间计算结果，显存占用直接“爆炸”。
Batch & 长上下文：如果输入长文本，计算图更大，显存压力更高。

💡 举个比喻：
显存就像餐厅厨房，厨师（GPU核心）再多也没用，如果厨房太小（显存不足），菜就做不出来。

4.1 显存占用公式

显存 ≈ 权重 + KV-Cache + 激活

权重 (FP16) = 参数量 × 2 Byte
KV-Cache    = 2 × 层数 × 隐藏维度 × 序列长度 × batch
激活        = batch × 序列长度 × 隐藏维度 × 层数

权重 (FP16) = 参数量 × 2 Byte
KV-Cache = 2 × 层数 × 隐藏维度 × 序列长度 × batch
激活 = batch × 序列长度 × 隐藏维度 × 层数
70 B 模型 FP16：140 GB → 单卡 4090 24 G 直接 OOM
32 k 长文本 KV-Cache 再占 32 GB，恐怖如斯！

5. 大模型加速技术：蒸馏、量化、剪枝、LoRA

既然训练和推理都很“烧钱”，研究者们就发明了一堆“黑科技”，让模型 更小、更快、更便宜。

知识蒸馏（Distillation）：大模型教小模型，就像博士带硕士，把知识“压缩转移”。例如从 GPT-3 蒸馏出一个小模型，性能相近但更轻量。
量化（Quantization）：把 32 位浮点数压缩成 8 位/4 位，显存占用直接减半甚至更少。比如 INT8 量化，让显卡能多撑一阵。
剪枝（Pruning）：把模型里不重要的参数“剪掉”，像修树枝一样，让模型更精简。
LoRA（Low-Rank Adaptation）：一种低成本微调方法，只更新模型的一小部分参数，就能快速适应新任务，常用于本地训练和开源模型。

📌 总结一句：
这些技术就是 “减肥 + 提效”，让大模型能在消费级显卡、甚至手机上跑起来。

下一课预告：大模型科普专栏 · 第三章：《从代码到多模态，大模型正在改变世界》，关注专栏，第一时间获取更新！

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla