更优阅读体验:https://mp.weixin.qq.com/s/6p_n6pNCziXHjJSzATyHSg

DeepSeek 高峰时段涨价

昨天下文收到邮件:

  • DeepSeek V4 正式版计划于 7 月中旬正式上线(还有十几天),现在的是4月24日发布的预览版

  • 正式版发布后,DeepSeek API 高峰时段价格翻倍(每日 9:00~12:00 和 14:00~18:00)。

调整后的价格:

  • deepseek-v4-pro
计费项 平时价格 高峰时段价格
百万tokens输入(缓存命中) 0.025 元 0.05 元
百万tokens输入(缓存未命中) 3 元 6 元
百万tokens输出 6 元 12 元
  • deepseek-v4-flash
计费项 平时价格 高峰时段价格
百万tokens输入(缓存命中) 0.02 元 0.04 元
百万tokens输入(缓存未命中) 1 元 2 元
百万tokens输出 2 元 4 元

是7月中旬正式版发布后价格才变,目前价格还没有变,还没有采用峰谷定价策略。

我6月没咋用DeepSeek,只花了30:

image-20260629233626316

DeepSpec 和 DSpark

6月27日,DeepSeek联合北京大学开源推理加速框架DSpark,通过半自回归生成与置信度调度两项创新,在不增加硬件、不牺牲生成质量的前提下,将单用户生成速度提升60%–85%、整体吞吐量最高提升4倍,并已部署于DeepSeek-V4系列线上服务。

随DSpark一同开源的DeepSpec是一个全栈代码库。它专门用于训练和评估推测解码(Speculative Decoding)算法中的草稿模型(Draft Models)。

DeepSpec 为这项技术提供了一套完整的工程流水线,主要包括以下三个核心模块:

  • 数据准备 (Data Preparation):提供下载训练数据、调用目标模型重新生成答案,以及构建目标缓存(Target Cache)的脚本。
  • 模型训练 (Training):支持多 GPU 并行,利用准备好的缓存数据来训练特定的草稿模型。
  • 模型评估 (Evaluation):提供在各类主流基准测试(如 GSM8k, Math500, HumanEval 等)上衡量推测解码接受率(Acceptance Rate)的评估工具。

目前,该仓库已支持三种草稿模型算法(DSpark、DFlash 和 Eagle3),并且主要针对 Qwen 系列(如 Qwen3)和 Gemma 模型提供了丰富的预训练权重和默认配置。

DSpark已全面部署在DeepSeek-V4-Flash和V4-Pro的预览版线上服务中,替代原MTP-1生产基线,并经过真实用户流量验证。


DSpark论文原文:https://github.com/deepseek-ai/DeepSpec/blob/main/DSpark_paper.pdf

DSPark解决了什么问题:

大型语言模型(LLM)在推理时往往速度较慢且资源利用率低。现有的“投机解码”加速技术在生成长序列草稿时面临两大瓶颈:一是并行生成的草稿在后半段质量会迅速衰减;二是在高并发场景下,盲目验证所有草稿词元会严重浪费系统的核心算力。

原理简述:

  • 半自回归生成:采用“重并行主干 + 轻串行头部”的架构。绝大部分计算由并行网络瞬间完成以保证速度,而轻量级的串行头部则为词元注入局部上下文依赖,从而在几乎不增加延迟的情况下,大幅缓解了草稿后半段质量衰减的问题。
  • 基于置信度调度的验证:引入置信度预测头,预估每个草稿词元最终存活的概率。配合感知硬件负载的调度器,系统会动态地为每个请求裁剪出最优的验证长度,果断丢弃极有可能被拒绝的尾部词元,确保好钢用在刀刃上。

投机解码:

一种大模型推理加速框架,其原理是让轻量级的草稿模型(Draft Model)快速生成一批候选词元,然后交由全尺寸的目标模型(Target Model)在一次前向传播中进行验证,以此在不损失生成质量的前提下提升速度。

原理图示:

image-20260630000527501

该图通过一个具体的词元生成示例,直观地展示了 DSpark 的完整解码循环(Decoding Cycle)流程,具体分为三个主要阶段 :

  1. 主模型生成锚点给定提示词元(Tokens)ABC,目标大模型(Target Model)首先执行一步前向传播,生成下一个词元 D。这个 D 将作为后续草稿阶段的“锚定词元”(Anchor Token)。
  2. 半自回归草稿生成与动态裁剪 以 D 作为输入,DSpark 结合了一个重型的并行块(Parallel Block)和一个轻量级的顺序块(Sequential Block),共同生成草稿词元 EFGH,并为它们计算出对应的置信度分数 C 1 C_1 C1 C 4 C_4 C4 。随后,“硬件感知前缀调度器”(Hardware-Aware Prefix Scheduler)对这些分数进行评估,动态决定保留高置信度的前缀 EFG(Keep),并果断丢弃(Drop)低置信度的尾部词元 H
  3. 并行验证与修正 目标大模型对调度器保留下来的前缀 EFG 进行单次并行验证 。在此示例中,EF 被成功接受,而 G 被拒绝,大模型会当场生成一个修正后的词元 G* 来补救,从而完成本轮循环并进入下一轮 。

性能提升数据:

ChatGPT Image 2026年6月30日 00_28_42

往期内容:

Logo

中国智能体开发者社区,聚焦智能体与大模型开发,提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动,促进经验交流与协作,助力开发者快速构建创新智能应用。

更多推荐