「赤兔」Chitu 框架深度解读(二):性能实测数据揭秘
从稠密模型 Qwen3 到巨型 MoE 模型 DeepSeek-R1、Kimi-K2 和 GLM-4.5,「赤兔」Chitu 框架都展示了其在英伟达和国产算力平台上的出色性能和高并发处理能力。然而,对于巨型模型,性能和显存往往不可兼得。在下一篇文章中,我们将重点解读「赤兔」如何利用量化和异构推理技术,突破显存瓶颈,实现低成本部署超大模型。# 「赤兔」Chitu 框架深度解读(二):性能实测数据揭秘
「赤兔」Chitu 框架深度解读(二):性能实测数据揭秘(Qwen3, DeepSeek-R1, Kimi)
在上一篇文章中,我们了解了「赤兔」Chitu 框架作为生产级推理引擎的定位与核心特性。对于一个推理框架而言,性能是衡量其价值最直观的标尺。本文将深入分析官方提供的PERFORMANCE.md文件,通过翔实的测试数据,揭示「赤兔」在处理不同类型大模型(稠密模型、混合专家模型)时的强劲性能。
测试配置说明:
除非特别注明,下文数据均基于input_len = 128 tokens, output_len = 1024 tokens的配置。性能指标TPS(Tokens Per Second) 代表总的输出速率,计算公式为output_tokens / (prefill_sec + decode_sec)。
稠密模型性能:以 Qwen3-32B 为例
稠密模型是目前应用最广泛的模型结构。「赤兔」提供了 Qwen3-32B 在三种不同算力平台上的性能数据,清晰地展示了其跨硬件的优化能力。
Qwen3-32B 性能数据 (TPS)
| BS (Batch Size) | 1xH20 (96GB) | 2x910B2 (64GB) | 4xDCU (64GB) |
|---|---|---|---|
| 1 | 44.79 | 24.39 | 25.04 |
| 4 | 167.76 | 84.54 | 94.50 |
| 16 | 585.13 | 265.45 | 346.90 |
| 64 | 1333.49 | 805.26 | 962.24 |
| 128 | N/A | 1223.77 | N/A |
数据解读:
- 高吞吐量:在单张英伟达 H20 (96GB) 上,随着并发(Batch Size)增加,TPS 线性增长,在 BS=64 时达到 1333.49 TPS,显示了出色的批处理效率。
- 国产算力支持:数据覆盖了华为昇腾 910B2 和海光 DCU。在 BS=64 时,两者分别达到了 805 TPS 和 962 TPS,证明「赤兔」对国产算力进行了切实的性能优化,使其具备了生产可用性。
- 并发处理:在昇腾 910B2 上,BS 甚至拉高到了 128,吞吐量达到 1223.77 TPS,展示了其在国产硬件上处理高并发请求的能力。
混合专家 (MoE) 模型性能:驾驭巨型模型
混合专家(MoE)模型是当前大模型领域的前沿,其参数量巨大(如 DeepSeek-R1 671B、Kimi-K2 1T),对推理框架的并行调度、显存管理提出了极高挑战。
1. DeepSeek-R1-671B
| BS (Batch Size) | 16xH20 (96GB) TP8PP2 | 32xH20 (96GB) DP32EP32 |
|---|---|---|
| 32 | 636.03 | 660.34 |
| 128 | 1862.98 | 2374.99 |
| 512 | N/A | 7458.43 |
| 2048 | N/A | 16022.60 |
数据解读:
「赤兔」能够高效驱动 671B 级别的巨型 MoE 模型。在 32 卡 H20 集群上,BS 高达 2048 时,总吞吐量可达 16022 TPS,显示了其强大的集群扩展能力和对 MoE 模型(EP,即专家并行)的深度优化。
2. Kimi-K2-1T
Kimi (Moonshot) 模型以其超长上下文能力著称,「赤兔」也对其提供了支持。
| BS (Batch Size) | 16xH20 (96GB) |
|---|---|
| 1 | 47.51 |
| 16 | 403.08 |
| 64 | 943.05 |
| 256 | 2571.74 |
数据解读:
作为一款参数量可能达到万亿(1T)级别的 MoE 模型,「赤兔」在 16 卡 H20 集群上依然能实现高并发处理,在 BS=256 时达到 2571 TPS,证明了其对 Kimi 这类复杂 MoE 模型的支持已经落地。
3. GLM-4.5-Air-106B-A12B
这是智谱 AI 的一款 MoE 模型,「赤兔」同时提供了在 H20 和昇腾 910B2 上的数据。
| BS (Batch Size) | 8xH20 (96GB) | 8x910B2 (64GB) |
|---|---|---|
| 1 | 113.28 | 30.81 |
| 16 | 1058.10 | 286.75 |
| 64 | 2986.52 | 796.72 |
| 128 | 4757.48 | 1317.03 |
数据解读:
这组数据极具价值。它表明「赤兔」不仅在英伟达 GPU 上性能卓越(8 卡 H20 在 BS=128 时达 4757 TPS),同时也在国产昇腾 910B2 上实现了对 MoE 模型的生产级支持(8 卡 910B2 在 BS=128 时达 1317 TPS)。这与 README.md 中提到的“首发支持华为昇腾 910B 推理部署智谱 GLM-4.5 MoE 模型”里程碑相呼应。
总结
从稠密模型 Qwen3 到巨型 MoE 模型 DeepSeek-R1、Kimi-K2 和 GLM-4.5,「赤兔」Chitu 框架都展示了其在英伟达和国产算力平台上的出色性能和高并发处理能力。
然而,对于巨型模型,性能和显存往往不可兼得。在下一篇文章中,我们将重点解读「赤兔」如何利用量化和异构推理技术,突破显存瓶颈,实现低成本部署超大模型。# 「赤兔」Chitu 框架深度解读(二):性能实测数据揭秘(Qwen3, DeepSeek-R1, Kimi)
在上一篇文章中,我们了解了「赤兔」Chitu 框架作为生产级推理引擎的定位与核心特性。对于一个推理框架而言,性能是衡量其价值最直观的标尺。本文将深入分析官方提供的PERFORMANCE.md文件,通过翔实的测试数据,揭示「赤兔」在处理不同类型大模型(稠密模型、混合专家模型)时的强劲性能。
测试配置说明:
除非特别注明,下文数据均基于input_len = 128 tokens, output_len = 1024 tokens的配置。性能指标TPS(Tokens Per Second) 代表总的输出速率,计算公式为output_tokens / (prefill_sec + decode_sec)。
稠密模型性能:以 Qwen3-32B 为例
稠密模型是目前应用最广泛的模型结构。「赤兔」提供了 Qwen3-32B 在三种不同算力平台上的性能数据,清晰地展示了其跨硬件的优化能力。
Qwen3-32B 性能数据 (TPS)
| BS (Batch Size) | 1xH20 (96GB) | 2x910B2 (64GB) | 4xDCU (64GB) |
|---|---|---|---|
| 1 | 44.79 | 24.39 | 25.04 |
| 4 | 167.76 | 84.54 | 94.50 |
| 16 | 585.13 | 265.45 | 346.90 |
| 64 | 1333.49 | 805.26 | 962.24 |
| 128 | N/A | 1223.77 | N/A |
数据解读:
- 高吞吐量:在单张英伟达 H20 (96GB) 上,随着并发(Batch Size)增加,TPS 线性增长,在 BS=64 时达到 1333.49 TPS,显示了出色的批处理效率。
- 国产算力支持:数据覆盖了华为昇腾 910B2 和海光 DCU。在 BS=64 时,两者分别达到了 805 TPS 和 962 TPS,证明「赤兔」对国产算力进行了切实的性能优化,使其具备了生产可用性。
- 并发处理:在昇腾 910B2 上,BS 甚至拉高到了 128,吞吐量达到 1223.77 TPS,展示了其在国产硬件上处理高并发请求的能力。
混合专家 (MoE) 模型性能:驾驭巨型模型
混合专家(MoE)模型是当前大模型领域的前沿,其参数量巨大(如 DeepSeek-R1 671B、Kimi-K2 1T),对推理框架的并行调度、显存管理提出了极高挑战。
1. DeepSeek-R1-671B
| BS (Batch Size) | 16xH20 (96GB) TP8PP2 | 32xH20 (96GB) DP32EP32 |
|---|---|---|
| 32 | 636.03 | 660.34 |
| 128 | 1862.98 | 2374.99 |
| 512 | N/A | 7458.43 |
| 2048 | N/A | 16022.60 |
数据解读:
「赤兔」能够高效驱动 671B 级别的巨型 MoE 模型。在 32 卡 H20 集群上,BS 高达 2048 时,总吞吐量可达 16022 TPS,显示了其强大的集群扩展能力和对 MoE 模型(EP,即专家并行)的深度优化。
2. Kimi-K2-1T
Kimi (Moonshot) 模型以其超长上下文能力著称,「赤兔」也对其提供了支持。
| BS (Batch Size) | 16xH20 (96GB) |
|---|---|
| 1 | 47.51 |
| 16 | 403.08 |
| 64 | 943.05 |
| 256 | 2571.74 |
数据解读:
作为一款参数量可能达到万亿(1T)级别的 MoE 模型,「赤兔」在 16 卡 H20 集群上依然能实现高并发处理,在 BS=256 时达到 2571 TPS,证明了其对 Kimi 这类复杂 MoE 模型的支持已经落地。
3. GLM-4.5-Air-106B-A12B
这是智谱 AI 的一款 MoE 模型,「赤兔」同时提供了在 H20 和昇腾 910B2 上的数据。
| BS (Batch Size) | 8xH20 (96GB) | 8x910B2 (64GB) |
|---|---|---|
| 1 | 113.28 | 30.81 |
| 16 | 1058.10 | 286.75 |
| 64 | 2986.52 | 796.72 |
| 128 | 4757.48 | 1317.03 |
数据解读:
这组数据极具价值。它表明「赤兔」不仅在英伟达 GPU 上性能卓越(8 卡 H20 在 BS=128 时达 4757 TPS),同时也在国产昇腾 910B2 上实现了对 MoE 模型的生产级支持(8 卡 910B2 在 BS=128 时达 1317 TPS)。这与 README.md 中提到的“首发支持华为昇腾 910B 推理部署智谱 GLM-4.5 MoE 模型”里程碑相呼应。
总结
从稠密模型 Qwen3 到巨型 MoE 模型 DeepSeek-R1、Kimi-K2 和 GLM-4.5,「赤兔」Chitu 框架都展示了其在英伟达和国产算力平台上的出色性能和高并发处理能力。
然而,对于巨型模型,性能和显存往往不可兼得。在下一篇文章中,我们将重点解读「赤兔」如何利用量化和异构推理技术,突破显存瓶颈,实现低成本部署超大模型。
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)