DeepSeek-R1 多聊几句，为什么使美国忌讳什么是蒸馏

像 zhipu 这类的模型在使用中就能体会到它有多慢，答复的质量水准与 chatgpt 免费版的距 ...... 离，是没人在意的。举个例子：你把照片分别给到您正在训练的模型（比如叫seekdeep）和 Chatgpt | Gemini 这类商业模型，并利用 Chatgpt | Gemini 的回复来指导你正在训练的模型学习，这种方法就是。也可能有没公开的新技术等原因也可能会少，在训练时使用如：模

davenian

1498人浏览 · 2025-02-04 19:17:02

davenian · 2025-02-04 19:17:02 发布

https://huggingface.co/deepseek-ai/DeepSeek-R1

1. 硬件没有限制住

这个模型以 Safetensors 文件格式在 Huggingface.co 里上传，163 个 4GB 文件。

模型参数有 685B个（6850亿个）
数据类型：BF16，F8_E4M3， F32

有以上信息，可以推算出模型需要的显存数量。这里有一个公式：

BF16（16 位的浮点数格式 Brain Floating Point）：每个参数 2 字节
F8_E4M3 （8 位浮点数）：每个参数 1 字节。
F32（单精度浮点数）：每个参数 4 字节

再带入上面的模型参数大小，要以推算出来显存的需求：

BF16：685B 参数 * 2 字节/参数 = 1370B 字节
F8_E4M3：685B 参数 * 1 字节/参数 = 685B 字节
F32：685B 参数 * 4 字节/参数 = 2740B 字节

转换成 GB / TB：

BF16：1370 GB / 1.37 TB
F8_E4M3：685 GB / 0.69 TB
F32：2740 GB / 2.74 TB

这些是要在显存上运行的，也仅考虑模型参数的内存需求。

它还需要存储激活、梯度等其它数据，实际显存使用量会更高，一倍是 2~4倍。

这些都是估计值。 实际所需的显存量可能会因具体实现、硬件和优化技术而异。也可能有没公开的新技术等原因也可能会少，在训练时使用如：模型并行，数据并行，梯度累积，混合精度训练等都能有效减少显存占用。

以 Nvidia H100 服务器为例：（两个版本: 8GPU+640GB, 8GPU+1TB），用最高配的 H100 服务器训练一个模型时，要多少台。往往训练时会有多个模型，在它人论文里也有提到。

2. 蒸馏技术是什么？

别人解题，你抄答案。

举个例子：你把照片分别给到您正在训练的模型（比如叫seekdeep）和 Chatgpt | Gemini 这类商业模型，并利用 Chatgpt | Gemini 的回复来指导你正在训练的模型学习，这种方法就是 知识蒸馏 (Knowledge Distillation)。

使用 Chatgpt | Gemini 商业模型据进行模型训练，涉及伦理和法律问题，例如数据隐私、知识产权等。但它叫做遥遥领先。

在它的论文中，都是知识迁移，只不过具体化。将 chatgpt | Gemini 等商业模型中的知识迁移到你正在训练的模型。使用预训练模型并在新任务的数据集上进行微调。同时训练一个模型来执行多个相关的任务，共享知识。学习如何学习，以便能够更快地适应新的任务

3. 提供商用服务的硬件

一般来说像这些大型语言模型，不太可能只用一个模型来服务所有用户。认知里的方式是使用多个模型实例，或者用复杂的架构来支持大规模的用户请求：

创建多个相同的模型实例，每个实例都可以独立处理一部分用户请求
把用户的请求分到不同的模型实例，每个实例负责处理特定类型的请求
多个用户共享同一个模型实例。但要有隔离机制，以免正在使用的用户数据发生泄露，或相互的干扰
使用多个不同的模型，每个模型侧重点不一样，各自分担一部分请求，将多个模型的输出进行合并。
将大型模型拆分成多个小的服务

总之，

不管怎样，后端运行的系统里，会不止一个模型实例在工作。意味着美国，禁止出口到中国的英伟达硬件的法律，在执行时有重大漏洞。

像 zhipu 这类的模型在使用中就能体会到它有多慢，答复的质量水准与 chatgpt 免费版的距 ... ... 离，是没人在意的。但百万下载量，系统没崩，就完全不一样了。硬件哪里获得的，论文里蒸馏不叫炒，知识迁移是创新，本该低调的事儿，高喊着遥遥领先呢

明知在作恶却任意而为之。你是得到了东厂的功名，惩罚留给14亿人。

智能体开发者社区

中国智能体开发者社区，聚焦智能体与大模型开发，提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动，促进经验交流与协作，助力开发者快速构建创新智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

智能体开发者社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

智能体开发者社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla