「赤兔」Chitu 框架深度解读（二）：性能实测数据揭秘

从稠密模型 Qwen3 到巨型 MoE 模型 DeepSeek-R1、Kimi-K2 和 GLM-4.5，「赤兔」Chitu 框架都展示了其在英伟达和国产算力平台上的出色性能和高并发处理能力。然而，对于巨型模型，性能和显存往往不可兼得。在下一篇文章中，我们将重点解读「赤兔」如何利用量化和异构推理技术，突破显存瓶颈，实现低成本部署超大模型。# 「赤兔」Chitu 框架深度解读（二）：性能实测数据揭秘

wwlsm_zql

699人浏览 · 2025-10-24 10:21:41

wwlsm_zql · 2025-10-24 10:21:41 发布

「赤兔」Chitu 框架深度解读（二）：性能实测数据揭秘（Qwen3, DeepSeek-R1, Kimi）

在上一篇文章中，我们了解了「赤兔」Chitu 框架作为生产级推理引擎的定位与核心特性。对于一个推理框架而言，性能是衡量其价值最直观的标尺。本文将深入分析官方提供的PERFORMANCE.md文件，通过翔实的测试数据，揭示「赤兔」在处理不同类型大模型（稠密模型、混合专家模型）时的强劲性能。

测试配置说明：
除非特别注明，下文数据均基于 input_len = 128 tokens, output_len = 1024 tokens 的配置。性能指标 TPS (Tokens Per Second) 代表总的输出速率，计算公式为 output_tokens / (prefill_sec + decode_sec)。

稠密模型性能：以 Qwen3-32B 为例

稠密模型是目前应用最广泛的模型结构。「赤兔」提供了 Qwen3-32B 在三种不同算力平台上的性能数据，清晰地展示了其跨硬件的优化能力。

Qwen3-32B 性能数据 (TPS)

BS (Batch Size)	1xH20 (96GB)	2x910B2 (64GB)	4xDCU (64GB)
1	44.79	24.39	25.04
4	167.76	84.54	94.50
16	585.13	265.45	346.90
64	1333.49	805.26	962.24
128	N/A	1223.77	N/A

数据解读：

高吞吐量：在单张英伟达 H20 (96GB) 上，随着并发（Batch Size）增加，TPS 线性增长，在 BS=64 时达到 1333.49 TPS，显示了出色的批处理效率。
国产算力支持：数据覆盖了华为昇腾 910B2 和海光 DCU。在 BS=64 时，两者分别达到了 805 TPS 和 962 TPS，证明「赤兔」对国产算力进行了切实的性能优化，使其具备了生产可用性。
并发处理：在昇腾 910B2 上，BS 甚至拉高到了 128，吞吐量达到 1223.77 TPS，展示了其在国产硬件上处理高并发请求的能力。

混合专家 (MoE) 模型性能：驾驭巨型模型

混合专家（MoE）模型是当前大模型领域的前沿，其参数量巨大（如 DeepSeek-R1 671B、Kimi-K2 1T），对推理框架的并行调度、显存管理提出了极高挑战。

1. DeepSeek-R1-671B

BS (Batch Size)	16xH20 (96GB) TP8PP2	32xH20 (96GB) DP32EP32
32	636.03	660.34
128	1862.98	2374.99
512	N/A	7458.43
2048	N/A	16022.60

数据解读：
「赤兔」能够高效驱动 671B 级别的巨型 MoE 模型。在 32 卡 H20 集群上，BS 高达 2048 时，总吞吐量可达 16022 TPS，显示了其强大的集群扩展能力和对 MoE 模型（EP，即专家并行）的深度优化。

2. Kimi-K2-1T

Kimi (Moonshot) 模型以其超长上下文能力著称，「赤兔」也对其提供了支持。

BS (Batch Size)	16xH20 (96GB)
1	47.51
16	403.08
64	943.05
256	2571.74

数据解读：
作为一款参数量可能达到万亿（1T）级别的 MoE 模型，「赤兔」在 16 卡 H20 集群上依然能实现高并发处理，在 BS=256 时达到 2571 TPS，证明了其对 Kimi 这类复杂 MoE 模型的支持已经落地。

3. GLM-4.5-Air-106B-A12B

这是智谱 AI 的一款 MoE 模型，「赤兔」同时提供了在 H20 和昇腾 910B2 上的数据。

BS (Batch Size)	8xH20 (96GB)	8x910B2 (64GB)
1	113.28	30.81
16	1058.10	286.75
64	2986.52	796.72
128	4757.48	1317.03

数据解读：
这组数据极具价值。它表明「赤兔」不仅在英伟达 GPU 上性能卓越（8 卡 H20 在 BS=128 时达 4757 TPS），同时也在国产昇腾 910B2 上实现了对 MoE 模型的生产级支持（8 卡 910B2 在 BS=128 时达 1317 TPS）。这与 README.md 中提到的“首发支持华为昇腾 910B 推理部署智谱 GLM-4.5 MoE 模型”里程碑相呼应。

总结

从稠密模型 Qwen3 到巨型 MoE 模型 DeepSeek-R1、Kimi-K2 和 GLM-4.5，「赤兔」Chitu 框架都展示了其在英伟达和国产算力平台上的出色性能和高并发处理能力。

然而，对于巨型模型，性能和显存往往不可兼得。在下一篇文章中，我们将重点解读「赤兔」如何利用量化和异构推理技术，突破显存瓶颈，实现低成本部署超大模型。# 「赤兔」Chitu 框架深度解读（二）：性能实测数据揭秘（Qwen3, DeepSeek-R1, Kimi）

测试配置说明：
除非特别注明，下文数据均基于 input_len = 128 tokens, output_len = 1024 tokens 的配置。性能指标 TPS (Tokens Per Second) 代表总的输出速率，计算公式为 output_tokens / (prefill_sec + decode_sec)。

稠密模型性能：以 Qwen3-32B 为例

稠密模型是目前应用最广泛的模型结构。「赤兔」提供了 Qwen3-32B 在三种不同算力平台上的性能数据，清晰地展示了其跨硬件的优化能力。

Qwen3-32B 性能数据 (TPS)

BS (Batch Size)	1xH20 (96GB)	2x910B2 (64GB)	4xDCU (64GB)
1	44.79	24.39	25.04
4	167.76	84.54	94.50
16	585.13	265.45	346.90
64	1333.49	805.26	962.24
128	N/A	1223.77	N/A

数据解读：

高吞吐量：在单张英伟达 H20 (96GB) 上，随着并发（Batch Size）增加，TPS 线性增长，在 BS=64 时达到 1333.49 TPS，显示了出色的批处理效率。
国产算力支持：数据覆盖了华为昇腾 910B2 和海光 DCU。在 BS=64 时，两者分别达到了 805 TPS 和 962 TPS，证明「赤兔」对国产算力进行了切实的性能优化，使其具备了生产可用性。
并发处理：在昇腾 910B2 上，BS 甚至拉高到了 128，吞吐量达到 1223.77 TPS，展示了其在国产硬件上处理高并发请求的能力。

混合专家 (MoE) 模型性能：驾驭巨型模型

混合专家（MoE）模型是当前大模型领域的前沿，其参数量巨大（如 DeepSeek-R1 671B、Kimi-K2 1T），对推理框架的并行调度、显存管理提出了极高挑战。

1. DeepSeek-R1-671B

BS (Batch Size)	16xH20 (96GB) TP8PP2	32xH20 (96GB) DP32EP32
32	636.03	660.34
128	1862.98	2374.99
512	N/A	7458.43
2048	N/A	16022.60

2. Kimi-K2-1T

Kimi (Moonshot) 模型以其超长上下文能力著称，「赤兔」也对其提供了支持。

BS (Batch Size)	16xH20 (96GB)
1	47.51
16	403.08
64	943.05
256	2571.74

3. GLM-4.5-Air-106B-A12B

这是智谱 AI 的一款 MoE 模型，「赤兔」同时提供了在 H20 和昇腾 910B2 上的数据。

BS (Batch Size)	8xH20 (96GB)	8x910B2 (64GB)
1	113.28	30.81
16	1058.10	286.75
64	2986.52	796.72
128	4757.48	1317.03

总结

从稠密模型 Qwen3 到巨型 MoE 模型 DeepSeek-R1、Kimi-K2 和 GLM-4.5，「赤兔」Chitu 框架都展示了其在英伟达和国产算力平台上的出色性能和高并发处理能力。

然而，对于巨型模型，性能和显存往往不可兼得。在下一篇文章中，我们将重点解读「赤兔」如何利用量化和异构推理技术，突破显存瓶颈，实现低成本部署超大模型。

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

Chess用户界面设计：Tailwind CSS样式系统和组件库

GitHub推荐项目精选中的ch/chess是一个类似chess.com的多人在线象棋平台，它采用现代化的前端技术栈构建，尤其在用户界面设计上通过Tailwind CSS样式系统和组件库实现了优雅且功能丰富的交互体验。本文将深入探讨该项目如何利用Tailwind CSS打造一致的设计语言和高效的组件系统，为象棋爱好者提供沉浸式的游戏界面。## 🎨 Tailwind CSS样式系统：构建统一视

火山引擎 ADG 社区

终极指南：GPT-Engineer如何通过AI自动发现代码问题并提升质量

GPT-Engineer是一款强大的AI驱动代码工具，它能帮助开发者自动检测潜在代码问题、优化代码质量，让编程效率提升3倍以上。无论是新手还是资深开发者，都能通过这款工具轻松发现代码中的隐藏缺陷，减少调试时间，释放更多精力在创造性工作上。## 一键发现代码问题：GPT-Engineer的AI审查魔力GPT-Engineer的核心能力在于其内置的智能代码分析系统。通过集成Python代码格式

火山引擎 ADG 社区

SatDump中的纠错编码技术：从RS码到Turbo码的完整实现指南

在卫星数据传输过程中，信号往往会受到各种干扰，导致数据错误。SatDump作为一款通用卫星数据处理软件，集成了多种先进的纠错编码技术，确保从卫星接收到的数据能够准确解码。本文将深入解析SatDump中从Reed-Solomon（RS）码到Turbo码的实现细节，帮助读者理解这些技术如何保障卫星通信的可靠性。## 为什么纠错编码对卫星数据至关重要？卫星与地面站之间的通信链路面临着空间辐射、大