数据快照时间:2026-06-02。本文所有模型版本、价格及技术细节均基于该时间点各厂商官方公开文档整理,供实际采购与架构决策参考。

摘要:本文系统对比了 OpenAI Codex、GitHub Copilot、Google Cloud Code 在工具缓存层面的差异,梳理了 DeepSeek、Qwen、Kimi、GPT 等主流模型的 Token 定价体系,并通过 OpenAI RESTful API 的三轮对话实战,彻底讲清"标准输入"“缓存命中”"标准输出"的计费逻辑与成本优化策略。


一、工具层缓存机制对比:Codex / Copilot / Cloud Code

在 AI 辅助编程工具中,缓存命中(Cache Hit) 直接决定了重复任务的处理延迟和成本。三款主流工具的架构差异显著:

维度 OpenAI Codex GitHub Copilot Cloud Code (Gemini)
缓存层级 云端容器缓存 + Prompt 前缀缓存 请求级缓存 + 向量检索 + 质量管道 主要依赖 IDE 本地状态,云端缓存机制未公开
延迟优化 容器缓存使任务完成时间降低 90% 内联补全延迟稳定在 100–300ms 轻量扩展,延迟取决于 Gemini 后端
缓存失效风险 工具变更、代理层不稳定、MCP 连接变动均会导致 Prompt Cache 失效 模型版本更新、项目依赖变更可能触发刷新 截至发稿时官方未披露详细缓存策略
用户可控性 需手动管理 session_idprompt_cache_key 完全透明,用户无感知 无感知,但缺乏可验证数据

结论:GitHub Copilot 的缓存最稳定且对用户透明,适合日常高频编码;OpenAI Codex 的缓存上限更高(容器级 + Prompt 级),但命中条件苛刻,对代理配置要求更高;Cloud Code 的缓存机制基于公开文档分析,目前缺乏可验证的详细数据,建议在实际选型前向 Google 官方确认最新策略。


二、主流大模型 Token 定价全景对比

基于各厂商官方定价页面(数据快照:2026-06-02),以下是 6 款模型 的统一美元计价对比(汇率按 1 USD ≈ 6.9 CNY,Qwen 人民币原价见备注):

2.1 核心定价表(统一美元)

模型 标准输入 / 1M 缓存命中 / 1M 标准输出 / 1M 上下文窗口
DeepSeek V4 Flash $0.14 $0.003 $0.28 1,000,000
DeepSeek V4 Pro $0.435 $0.004 $0.87 1,000,000
GPT-5.4 mini $0.75 $0.075 $4.50 400,000
Qwen3.7-Max (5折后) $0.87 $0.17 $2.61 1,000,000
Kimi-2.6 $0.95 $0.16 $4.00 262,144
GPT-5.3 Codex $1.75 $0.175 $14.00 400,000

Qwen3.7-Max 备注:原价为输入 ¥12 / 输出 ¥36(人民币),阿里云百炼平台限时 5 折活动后变为 ¥6 / ¥18,新用户享 7000 万 Token 免费额度。按 1 USD ≈ 6.9 CNY 换算为美元计入上表。

2.2 各模型关键信息

  • DeepSeek V4 Pro:75% 折扣后的永久定价(2026-05-31 后生效),支持 1M 上下文与 384K 最大输出。缓存命中价仅为标准输入的 1/120
  • DeepSeek V4 Flash:高性价比版本,适合高并发 Agent 流量,输出价仅为 GPT-5.3 Codex 的 1/50
  • Qwen3.7-Max:阿里云百炼平台 2026-05-22 上线,原价 ¥12/¥36,限时 5 折后 ¥6/¥18,新用户享 7000 万 Token 免费额度。
  • Kimi-2.6:支持缓存机制降低长会话成本,另有 Adagio 到 Vivace 的会员订阅计划。
  • GPT-5.4 mini:OpenAI 目前最强大的 mini 模型,支持文本+图像+工具调用,在 Codex 中仅消耗 GPT-5.4 配额的 30%。
  • GPT-5.3 Codex:专为复杂多步编码任务打造的顶级 Agentic 模型,输出价格高达 $14/1M,是 DeepSeek V4 Flash 的 50 倍

2.3 成本梯队分析

维度 最便宜 → 最贵
标准输入 DeepSeek V4 Flash ($0.14) → V4 Pro ($0.435) → GPT-5.4 mini ($0.75) → Qwen ($0.87) → Kimi ($0.95) → GPT-5.3 Codex ($1.75)
缓存命中 DeepSeek V4 Flash ($0.003) → V4 Pro ($0.004) → GPT-5.4 mini ($0.075) → Kimi ($0.16) → Qwen ($0.17) → GPT-5.3 Codex ($0.175)
标准输出 DeepSeek V4 Flash ($0.28) → V4 Pro ($0.87) → Qwen ($2.61) → Kimi ($4.00) → GPT-5.4 mini ($4.50) → GPT-5.3 Codex ($14.00)

三、OpenAI API 计费机制解密

3.1 三个核心概念

概念 通俗理解 计费逻辑
标准输入 (Cache Miss) 你首次发给模型的全新内容 模型从头计算,按标准输入价收费
缓存命中 (Cache Hit) 你之前发过、模型已记住的内容 模型直接复用,按缓存价收费(通常 1/10)
标准输出 (Output) 模型生成并返回给你的内容 按输出价收费,通常比输入更贵

3.2 RESTful API 字段映射

在 OpenAI 的 /v1/chat/completions 响应中,这三个概念对应具体的 JSON 字段:

{
  "usage": {
    "prompt_tokens": 1750,           // 总输入 token
    "completion_tokens": 150,        // 输出 token
    "total_tokens": 1900,
    "prompt_tokens_details": {
      "cached_tokens": 1450,       // ← 缓存命中的部分
      "audio_tokens": 0
    }
  }
}
  • 标准输入 = prompt_tokens - cached_tokens
  • 缓存命中 = prompt_tokens_details.cached_tokens
  • 标准输出 = completion_tokens

3.3 三轮对话实战(curl 示例)

以下以 GPT-5.4 mini 为例,演示多轮对话中缓存如何累积。

第一轮:全新请求(0 缓存)
curl https://api.openai.com/v1/chat/completions   -H "Authorization: Bearer $OPENAI_API_KEY"   -d '{
    "model": "gpt-5.4-mini",
    "messages": [
      {"role": "system", "content": "你是一位资深代码审查专家。以下是项目规范:1. 所有函数必须加类型注解;2. 禁止裸 except;3. 日志必须使用 structlog。请基于这些规范审查用户提交的代码。"},
      {"role": "user", "content": "请审查这段代码:def foo(x): try: return x/0 except: return None"}
    ]
  }'

返回 usage

{
  "usage": {
    "prompt_tokens": 1000,
    "completion_tokens": 300,
    "prompt_tokens_details": {"cached_tokens": 0}
  }
}

费用计算

  • 标准输入:1000 × $0.75 / 1M = $0.00075
  • 缓存命中:0
  • 标准输出:300 × $4.50 / 1M = $0.00135
  • 合计:$0.0021

第二轮:追问同一话题(800 tokens 命中)
curl https://api.openai.com/v1/chat/completions   -H "Authorization: Bearer $OPENAI_API_KEY"   -d '{
    "model": "gpt-5.4-mini",
    "messages": [
      {"role": "system", "content": "你是一位资深代码审查专家。以下是项目规范:1. 所有函数必须加类型注解;2. 禁止裸 except;3. 日志必须使用 structlog。请基于这些规范审查用户提交的代码。"},
      {"role": "user", "content": "请审查这段代码:def foo(x): try: return x/0 except: return None"},
      {"role": "assistant", "content": "问题1:缺少类型注解;问题2:使用了裸 except;问题3:缺少日志记录。建议修改..."},
      {"role": "user", "content": "那如果改成 except ZeroDivisionError: 呢?"}
    ]
  }'

返回 usage

{
  "usage": {
    "prompt_tokens": 1350,
    "completion_tokens": 200,
    "prompt_tokens_details": {"cached_tokens": 800}
  }
}

费用计算

  • 标准输入:(1350 - 800) × $0.75 / 1M = 550 × $0.75 / 1M = $0.0004125
  • 缓存命中:800 × $0.075 / 1M = $0.00006
  • 标准输出:200 × $4.50 / 1M = $0.0009
  • 合计:$0.0013725

第三轮:继续深挖(1450 tokens 命中)
curl https://api.openai.com/v1/chat/completions   -H "Authorization: Bearer $OPENAI_API_KEY"   -d '{
    "model": "gpt-5.4-mini",
    "messages": [
      {"role": "system", "content": "你是一位资深代码审查专家。以下是项目规范:1. 所有函数必须加类型注解;2. 禁止裸 except;3. 日志必须使用 structlog。请基于这些规范审查用户提交的代码。"},
      {"role": "user", "content": "请审查这段代码:def foo(x): try: return x/0 except: return None"},
      {"role": "assistant", "content": "问题1:缺少类型注解;问题2:使用了裸 except;问题3:缺少日志记录。建议修改..."},
      {"role": "user", "content": "那如果改成 except ZeroDivisionError: 呢?"},
      {"role": "assistant", "content": "这样改可以捕获具体异常,但还需要添加类型注解和 structlog 日志。另外建议将函数签名改为 def foo(x: float) -> Optional[float]:"},
      {"role": "user", "content": "还有别的问题吗?"}
    ]
  }'

返回 usage

{
  "usage": {
    "prompt_tokens": 1750,
    "completion_tokens": 150,
    "prompt_tokens_details": {"cached_tokens": 1450}
  }
}

费用计算

  • 标准输入:(1750 - 1450) × $0.75 / 1M = 300 × $0.75 / 1M = $0.000225
  • 缓存命中:1450 × $0.075 / 1M = $0.00010875
  • 标准输出:150 × $4.50 / 1M = $0.000675
  • 合计:$0.00100875(约 $0.00101

3.4 三轮成本趋势

轮次 总输入 缓存命中 未命中 标准输入费用 缓存命中费用 输出费用 总费用 节省
第1轮 1000 0 1000 $0.00075 $0 $0.00135 $0.00210 基准线
第2轮 1350 800 550 $0.0004125 $0.00006 $0.0009 $0.00137 ↓ 35%
第3轮 1750 1450 300 $0.000225 $0.000109 $0.000675 $0.00101 ↓ 52%

3.5 关键规律:缓存是"滚雪球"的

通过三轮对话,可以总结出 OpenAI 缓存机制的四个核心规律:

  1. 缓存自动累积:每一轮处理过的输入(包括历史对话中的 assistant 回复,只要它曾作为下一轮输入出现过)都会自动进入缓存池。你不需要传任何额外参数,OpenAI 自动做前缀匹配。

  2. 只有"本轮新增"按标准输入收费:第三轮中,真正按标准输入价计费的只有 assistant 第二轮的回复(200 tokens)+ user 第三轮的新问题(100 tokens)= 300 tokens。其余 1450 tokens 全部按缓存命中价($0.075/1M)计费。

  3. 生成时的输出 Token 本身不产生缓存,但作为历史消息传入下一轮时可触发缓存:模型上一轮生成的内容(completion_tokens)在生成瞬间不享受缓存优惠;但当它成为下一轮 messages 数组的一部分,且前缀匹配成功时,后续请求可以将其视为缓存命中。因此每一轮都必须为新的 completion_tokens 付费,但历史输出在后续轮次中可能按缓存价复用。

  4. 长对话越聊越便宜:到第 5、6 轮时,可能 90% 的输入都是缓存命中,成本趋近于"只付输出钱"。


3.6 缓存失效的陷阱

缓存虽然强大,但极易失效。以下情况会导致缓存清零:

触发条件 结果 示例
修改 system prompt 任意字符 整段缓存失效 把"资深代码审查专家"改成"高级代码审查专家"
插入/删除中间消息 后续前缀全部失效 在第二轮和第三轮之间插入一条新消息
超时 缓存自动清除 OpenAI 缓存保留约 5~10 分钟,超时后需重新计算
切换模型 缓存完全失效 gpt-5.4-mini 切到 gpt-5.3-codex
变更工具/函数定义 系统提示层改变 添加新的 functiontools 数组

四、成本优化实战策略

基于以上分析,以下是可直接落地的成本优化方案:

4.1 模型选择策略

场景 推荐模型 原因
高频轻量调用(<< 400K 上下文) DeepSeek V4 Flash 输入 $0.14、输出 $0.28,全表最低
复杂长上下文分析(> 400K) DeepSeek V4 Pro 1M 上下文 + 缓存命中仅 $0.004
需要最强代码能力(Agent 任务) GPT-5.3 Codex 能力最强,但输出 $14/1M,需控制调用频率
国内合规 + 阿里云生态 Qwen3.7-Max 5 折后性价比尚可,显式缓存命中仅 $0.09
多模态(视觉 + 文本) Kimi-2.6 支持视觉输入,但上下文仅 262K

4.2 缓存优化技巧

  1. 固定 system prompt:把系统提示写成模板,任何字符变动都会导致缓存失效。建议用变量注入而非字符串拼接。

  2. 批量追问:在缓存有效期内(5~10 分钟)集中完成同一文档的多轮分析,避免超时后重新计费。

  3. 利用 DeepSeek 的显式缓存:如果你使用 DeepSeek API,可以手动传入 prompt_cache_keyprompt_cache_retention,精确控制缓存生命周期,不受 5~10 分钟超时限制。

  4. 避免在对话中间插入消息:这会破坏前缀匹配,导致后续所有历史重新计费。

4.3 成本测算公式

对于一次 API 调用,总成本可精确计算为:

总成本($) = (prompt_tokens - cached_tokens) × 标准输入单价
         + cached_tokens × 缓存命中单价
         + completion_tokens × 输出单价

以第三轮对话为例(GPT-5.4 mini):

  • 标准输入:300 × $0.75 / 1,000,000 = $0.000225
  • 缓存命中:1450 × $0.075 / 1,000,000 = $0.00010875
  • 标准输出:150 × $4.50 / 1,000,000 = $0.000675
  • 合计:$0.00100875(约 $0.00101)

五、结语

从工具层的 Codex/Copilot/Cloud Code 缓存架构,到模型层的 DeepSeek/Qwen/Kimi/GPT 定价体系,再到 RESTful API 中 prompt_tokens_details.cached_tokens 的具体计费逻辑,缓存机制贯穿了 AI 应用成本的每一个环节。

核心 takeaway

  • 如果你追求极致性价比,DeepSeek V4 Flash 是目前的标杆,输出成本仅为 GPT-5.3 Codex 的 1/50。
  • 如果你追求复杂任务能力,GPT-5.3 Codex 无可替代,但需通过缓存优化和批量策略控制成本。
  • 如果你做长对话 Agent,理解 OpenAI 的自动前缀缓存机制,可以让你的输入成本从 $0.75/1M 降到 $0.075/1M,甚至更低。

缓存不是魔法,而是你付过钱的输入历史的复用。设计好对话结构、固定好系统提示、集中好追问时机,就能让每一分钱都花在刀刃上。


参考链接

  • DeepSeek 官方定价:https://api-docs.deepseek.com/quick_start/pricing
  • OpenAI 官方定价:https://openai.com/api/pricing/
  • Kimi K2.6 定价:https://www.kimi.com/resources/kimi-k2-6-pricing
  • 阿里云百炼控制台:https://bailian.console.aliyun.com/
  • OpenAI Prompt Caching 文档:https://platform.openai.com/docs/guides/prompt-caching
Logo

中国智能体开发者社区,聚焦智能体与大模型开发,提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动,促进经验交流与协作,助力开发者快速构建创新智能应用。

更多推荐