https://huggingface.co/deepseek-ai/DeepSeek-R1

1. 硬件没有限制住

这个模型以 Safetensors 文件格式在 Huggingface.co 里上传,163 个 4GB 文件。

模型参数有 685B个 (6850亿个)
数据类型:BF16,F8_E4M3, F32

有以上信息, 可以推算出模型需要的显存数量。这里有一个公式:

  • BF16(16 位的浮点数格式 Brain Floating Point):每个参数 2 字节
  • F8_E4M3 (8 位浮点数):每个参数 1 字节。
  • F32(单精度浮点数):每个参数 4 字节

再带入上面的模型参数大小, 要以推算出来显存的需求:

  • BF16:685B 参数 * 2 字节/参数 = 1370B 字节
  • F8_E4M3:685B 参数 * 1 字节/参数 = 685B 字节
  • F32:685B 参数 * 4 字节/参数 = 2740B 字节

转换成 GB / TB:

  • BF16:1370 GB / 1.37 TB
  • F8_E4M3:685 GB / 0.69 TB
  • F32:2740 GB / 2.74 TB

这些是要在显存上运行的,也仅考虑模型参数的内存需求。

它还需要存储激活、梯度 等其它数据, 实际显存使用量会更高,一倍是 2~4倍。

这些都是估计值。 实际所需的显存量可能会因具体实现、硬件和优化技术而异。也可能有没公开的新技术等原因也可能会少,在训练时使用如:模型并行,数据并行,梯度累积,混合精度训练等都能有效减少显存占用。

以 Nvidia H100 服务器为例: (两个版本: 8GPU+640GB,  8GPU+1TB), 用最高配的 H100 服务器训练一个模型时,要多少台。 往往训练时会有多个模型,在它人论文里也有提到。

2. 蒸馏技术是什么?

别人解题,你抄答案。

举个例子:你把照片分别给到您正在训练的模型(比如叫seekdeep)  和 Chatgpt | Gemini 这类商业模型,并利用 Chatgpt | Gemini 的回复来指导你正在训练的模型学习,这种方法就是 知识蒸馏 (Knowledge Distillation)。

使用 Chatgpt | Gemini 商业模型据进行模型训练,涉及伦理和法律问题,例如数据隐私、知识产权等。但它叫做 遥遥领先。

在它的论文中,都是知识迁移,只不过具体化。将 chatgpt | Gemini 等商业模型中的知识迁移到你正在训练的模型。使用预训练模型并在新任务的数据集上进行微调。同时训练一个模型来执行多个相关的任务,共享知识。学习如何学习,以便能够更快地适应新的任务

3. 提供商用服务的硬件

一般来说像这些大型语言模型,不太可能只用一个模型来服务所有用户。认知里的方式是使用多个模型实例,或者用复杂的架构来支持大规模的用户请求:

  • 创建多个相同的模型实例,每个实例都可以独立处理一部分用户请求
  • 把用户的请求分到不同的模型实例,每个实例负责处理特定类型的请求
  • 多个用户共享同一个模型实例。但要有隔离机制,以免正在使用的用户数据发生泄露,或相互的干扰
  • 使用多个不同的模型,每个模型侧重点不一样,各自分担一部分请求,将多个模型的输出进行合并。
  • 将大型模型拆分成多个小的服务

总之,

不管怎样,后端运行的系统里,会不止一个模型实例在工作。意味着美国,禁止出口到中国的英伟达硬件的法律,在执行时有重大漏洞。

像 zhipu 这类的模型在使用中就能体会到它有多慢,答复的质量水准与 chatgpt 免费版的距 ...            ... 离,是没人在意的。但百万下载量,系统没崩,就完全不一样了。 硬件哪里获得的,论文里蒸馏不叫炒,知识迁移是创新,本该低调的事儿,高喊着 遥遥领先呢

明知在作恶却任意而为之。你是得到了东厂的功名,惩罚留给14亿人。

Logo

中国智能体开发者社区,聚焦智能体与大模型开发,提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动,促进经验交流与协作,助力开发者快速构建创新智能应用。

更多推荐