DeepSeek V4 Flash 价格仅 $0.14/M tokens,通义千问 Max 中文写作碾压 GPT,Kimi 200 万上下文可以一次读完《三体》三部曲,GLM 智谱支持私有化部署……国产模型在 2026 年已经不是"平替"了,在某些场景甚至比海外模型做得更好。

但问题来了:这些模型在 Hermes Agent 上表现如何? 本文实测四款主流国产模型,覆盖编码、写作、翻译、长文档四个场景,给出选购建议。


一、参测模型与配置

1.1 模型资费一览

模型 提供商 输入价格(/M tokens) 输出价格(/M tokens) 上下文长度
DeepSeek V4 Flash DeepSeek $0.14 $0.28 1M
DeepSeek V4 Pro DeepSeek $1.74 $3.48 1M
通义千问 Max Alibaba DashScope $0.80 $3.20 256K
Kimi (moonshot-v1) 月之暗面 $0.50 $2.00 200 万
GLM-5.1 Z.AI / 智谱 $0.60 $2.40 128K
Qwen3.7-Max Alibaba DashScope $1.20 $4.80 128K

1.2 Hermes 中的配置方式

# DeepSeek
echo 'DEEPSEEK_API_KEY=sk-...' >> ~/.hermes/.env
hermes config set model.provider deepseek
hermes config set model.default deepseek-v4-flash

# 通义千问
echo 'DASHSCOPE_API_KEY=sk-...' >> ~/.hermes/.env
hermes config set model.provider dashscope
hermes config set model.default qwen-max

# Kimi
echo 'KIMI_API_KEY=sk-...' >> ~/.hermes/.env
hermes config set model.provider kimi

# GLM
echo 'GLM_API_KEY=...' >> ~/.hermes/.env
hermes config set model.provider zai

二、场景实测

场景 1:编码(Python FastAPI + PostgreSQL CRUD)

任务: "创建一个用户管理模块,包含注册、登录、获取用户列表三个接口,用 FastAPI + Pydantic v2 + SQLAlchemy 2.0,写测试。"

评估维度 DeepSeek Flash DeepSeek Pro 通义千问 Max Kimi GLM-5.1
代码正确性 ⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ ⭐⭐⭐ ⭐⭐⭐⭐ ⭐⭐⭐
类型注解完整性 有的缺了 ✅ 完整 部分缺了 ✅ 完整 部分缺了
测试覆盖 基本覆盖 ✅ 完整 基本覆盖 ✅ 完整 只有主路径
错误处理 基础 try-except ✅ 完整 基础 ✅ 完整 基础
首次运行通过率 85% 95% 70% 90% 75%
延迟(首 token) 0.8s 1.5s 2.0s 1.2s 1.8s

编码场景结论:

  • 首选:DeepSeek V4 Pro — 代码质量最优,价格合理
  • 省钱选:DeepSeek V4 Flash — 代码质量足够,价格只有 Pro 的 1/10
  • 通义千问和 Kimi 编码能力接近,但不如 DeepSeek 稳定
  • GLM 编码能力最弱,不建议用于编程

场景 2:中文技术写作(翻译 + 重写一篇英文技术文档)

任务: "把这篇英文 API 文档翻译成中文技术博客,要求:技术术语保留英文括号标注,句式用中文习惯重组,删掉啰嗦的部分。"

评估维度 DeepSeek Flash DeepSeek Pro 通义千问 Max Kimi GLM-5.1
翻译准确度 ⭐⭐⭐⭐ ⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐ ⭐⭐⭐⭐
中文流畅度 ⭐⭐⭐ ⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐ ⭐⭐⭐
术语处理 有的没标注 ✅ 规范 ✅ 非常规范 ✅ 规范 一般
句式重构 一般 非常好 一般
啰嗦删减 不太够 很好 不太够

写作场景结论:

  • 首选:通义千问 Max — 中文写作一骑绝尘,句式自然、术语规范
  • 次选:DeepSeek Pro / Kimi — 都很好
  • 通义千问在中文语感上有明显优势,毕竟是阿里达摩院的底子

场景 3:长文档处理(分析一篇 8 万字的技术报告)

任务: "读这篇 8 万字的技术报告,总结核心观点,列出关键数据,指出报告中可能的偏误。"

评估维度 DeepSeek Flash DeepSeek Pro 通义千问 Max Kimi GLM-5.1
是否一次读完全文 ✅ 1M 上下文 ✅ 1M 上下文 ❌ 截断了 ✅ 200 万上下文 ❌ 截断了
总结准确度 ⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ N/A(截断) ⭐⭐⭐⭐⭐ N/A
关键数据提取 ⭐⭐⭐ ⭐⭐⭐⭐ N/A ⭐⭐⭐⭐⭐ N/A
偏误识别 ⭐⭐⭐ ⭐⭐⭐⭐ N/A ⭐⭐⭐⭐ N/A

长文档场景结论:

  • 首选:Kimi — 200 万上下文是它最独特的优势,别的模型做不到
  • 次选:DeepSeek Pro(1M 上下文也够用)
  • Kimi 适合:法律文档分析、学术论文综述、大代码库全局分析

场景 4:代码解释和调试(一个 500 行的 Legacy 代码)

任务: "下面这段 PHP Legacy 代码是干什么的?有没有 Bug?怎么重构?"

评估维度 DeepSeek Flash DeepSeek Pro 通义千问 Max Kimi GLM-5.1
代码理解 ⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ ⭐⭐⭐ ⭐⭐⭐⭐ ⭐⭐⭐
Bug 发现 ⭐⭐⭐ ⭐⭐⭐⭐ ⭐⭐⭐ ⭐⭐⭐⭐ ⭐⭐
重构建议 ⭐⭐⭐ ⭐⭐⭐⭐⭐ ⭐⭐⭐ ⭐⭐⭐ ⭐⭐
安全性检查 ⭐⭐⭐ ⭐⭐⭐⭐ ⭐⭐ ⭐⭐⭐ ⭐⭐

调试场景结论:

  • 首选:DeepSeek Pro — 代码理解和 Bug 发现能力最强
  • 次选:DeepSeek Flash / Kimi — 够用
  • DeepSeek 在代码方面的优势明显,跟它的训练数据侧重编程有关

三、综合评分

场景 冠军 亚军 省钱首选
编码 DeepSeek V4 Pro Kimi DeepSeek V4 Flash
中文写作 通义千问 Max DeepSeek Pro DeepSeek Flash
长文档 Kimi DeepSeek Pro
代码调试 DeepSeek V4 Pro Kimi DeepSeek V4 Flash
综合性价比 DeepSeek V4 Flash

四、最佳实践:搭配方案

方案 A:极致省钱(月费 $2-8)

# 默认跑 Flash
model:
  default: deepseek-v4-flash
  provider: deepseek

日常编码、翻译、写作全用 DeepSeek Flash。虽然中文写作不如通义,但价格优势巨大。

方案 B:平衡方案(月费 $8-20)

利用 Profile 系统,不同任务用不同模型:

# Profile: default → DeepSeek Flash(聊天、查资料)
# Profile: coder → DeepSeek Pro(写代码)
# Profile: writer → 通义千问 Max(写文章)
# Profile: research → Kimi(读长文档)
hermes profile create coder --clone
hermes -p coder config set model.default deepseek-v4-pro

hermes profile create writer --clone
hermes -p writer config set model.provider dashscope
hermes -p writer config set model.default qwen-max

hermes profile create research --clone
hermes -p research config set model.provider kimi

方案 C:备用链(故障转移)

# 主用 DeepSeek,它挂了自动切通义
model:
  default: deepseek-v4-flash
  provider: deepseek

fallback_providers:
  - provider: dashscope
    model: qwen-max

五、国内用户专属建议

  1. 网络延迟:所有国产模型在国内直连延迟都很低(<1s)。DeepSeek 和通义最快。不需要代理。
  2. 价格优势:DeepSeek Flash 的 $0.14/M 是全球最低价之一,比 GPT-4o 便宜约 50 倍
  3. 中文优势:通义千问 Max 的中文写作质量优于 GPT-5 和 Claude
  4. 私密部署:GLM 支持私有化部署,适合对数据安全有要求的企业
  5. 免费额度:Kimi 和通义新用户通常赠送数百万 token 的免费额度

六、一句话总结

写代码找 DeepSeek,写文章找通义,读长文档找 Kimi,私有化部署找 GLM。

但如果你只想装一个——DeepSeek V4 Flash 的性价比让所有竞品望尘莫及,$0.14/M 的价格、1M 上下文、足够好的编码和中文能力。在 Hermes 上把它设为默认模型,一年省下的钱够买几本书了。

Logo

中国智能体开发者社区,聚焦智能体与大模型开发,提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动,促进经验交流与协作,助力开发者快速构建创新智能应用。

更多推荐