【大模型推理】SCORPIO: Serving the Right Requests at the Right Time for Heterogeneous SLOs（下：第三部分）

注意：TPOT（Time Per Output Token）即每输出令牌的时间，这里实际上就是ITL，因为ITL就是处理一个令牌的时间。但是，由于新请求加入后，批次中的请求的序列长度会随着生成令牌而增加，因此平均序列长度会动态变化。步中，处理整个批次所有令牌的总时间，然后除以令牌总数（即批次大小乘以步数）得到平均的每令牌处理时间（即TPOT）。本身就是整个批次处理一个令牌所需的时间（即每步的时间）

执笔论英雄

899人浏览 · 2025-06-03 16:17:51

执笔论英雄 · 2025-06-03 16:17:51 发布

推导思路

我们被要求推导公式(5)的由来。根据原文，公式(5)用于计算在接纳新请求r后，新批次R’在接下来的 $P (r)$ 步中的Estimated TPOT（每令牌处理时间）。

回顾公式(4)：

$I T L (∣ R ∣, L a vg (R)) = α \cdot ∣ R ∣ \cdot L a vg (R) + β \cdot ∣ R ∣ + γ \cdot L a vg (R) + δ$

其中，ITL表示批处理大小为|R|，平均序列长度为 $L a vg (R)$ 时的词元间延迟（即处理一个令牌所需的时间）。

在公式(5)中：

$EstimatedTPOT(|R'|, Lavg(R'), P) = ε × { (α·|R′| + γ) · (Lavg(R′) + P(r)/2) + β·|R′| + δ }$

注意：TPOT（Time Per Output Token）即每输出令牌的时间，这里实际上就是ITL，因为ITL就是处理一个令牌的时间。但是，由于新请求加入后，批次中的请求的序列长度会随着生成令牌而增加，因此平均序列长度会动态变化。公式(5)的推导基于以下关键点：

保守假设：假设当前批次中的所有请求（包括新加入的请求）都将持续生成 $P (r)$ 个令牌（即新请求的预测输出长度）。这意味着在接下来的 $P (r)$ 步中，批次大小保持为 $∣ R^{'} ∣$ ，但平均序列长度会逐渐增加。
平均序列长度的变化：在生成令牌的过程中，每个请求的序列长度都在增加。因此，在接下来的 $P (r)$ 步中，平均序列长度并不是一个固定值，而是从当前的 $L a vg (R^{'})$ 开始，每步增加（因为每个请求每一步都生成一个令牌，所以整个批次的平均序列长度每一步增加1）。因此，在 $P (r)$ 步内，平均序列长度是一个线性增长的过程。
对ITL的积分：由于ITL依赖于平均序列长度 $L a vg$ ，而 $L a vg$ 随时间变化，所以我们需要计算在接下来的 $P (r)$ 步中，处理整个批次所有令牌的总时间，然后除以令牌总数（即批次大小乘以步数）得到平均的每令牌处理时间（即TPOT）。但是原文采用了一种近似方法：用平均序列长度的平均值来估算这段时间内的平均ITL。

设当前时刻（迭代t）的平均序列长度为 $L_0 = Lavg(R')$ 。

在接下来的第1步，平均序列长度变为 $L_0+1$ （因为每个请求都生成了一个新令牌，所以平均序列长度增加1）。

在接下来的第k步，平均序列长度为 $L_0 + k$ 。

因此，在接下来的 $P (r)$ 步中，平均序列长度从L_0线性增长到 $L_0+P(r)$ 。

那么，在这 $P (r)$ 步中，每一步的平均序列长度可以取开始和结束的平均值：

$L_{avg} = [L_0 + (L_0 + P(r))] / 2 = L_0 + P(r)/2$

因此，我们可以用这个平均序列长度 $L_{avg} = L_0 + P(r)/2$ 来代表整个 $P (r)$ 步过程中的平均序列长度。

然后，将当前批处理大小|R’|和这个平均序列长度 $L_{avg}$ 代入公式(4)来估算每一步的ITL（即每令牌处理时间）：

$ITL_avg = α · |R'| · (L_0 + P(r)/2) + β · |R'| + γ · (L_0 + P(r)/2) + δ$

但是注意，这个 $ITL_{avg}$ 是每一步（即处理一个令牌）的时间，所以整个批次处理P®步（即每个请求生成 $P (r)$ 个令牌）的总时间应该是：

$TotalTime = ITL_{avg} * P(r)$ （因为每一步处理一个批次的所有令牌，但时间是一个ITL_avg，所以 $P (r)$ 步的总时间就是ITL_avg乘以步数 $P (r)$ ）

然而，这里我们要求的TPOT（每令牌处理时间）应该是总时间除以总处理的令牌数。总处理的令牌数为： $∣ R^{'} ∣ * P (r)$ （因为每个步骤生成|R’|个令牌，共 $P (r)$ 步）。

因此， $TPOT = TotalTime / (|R'| * P(r)) = (ITL_{avg} * P(r)) / (|R'| * P(r)) = ITL_{avg} / |R'|$

但是，注意这个结果并不是我们想要的，因为这样计算出来的TPOT实际上是每一步中每个令牌的平均处理时间（即 $ITL_{avg}$ 除以批大小？），这与我们之前对ITL的定义（整个批次处理一个令牌的时间）不一致。实际上， $ITL_{avg}$ 本身就是整个批次处理一个令牌所需的时间（即每步的时间），所以它已经是我们通常意义上的TPOT（每输出令牌的时间）.

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

实时人像分割：U-2-Net助力Clipping Camera实现实时拍摄

想要在手机拍摄时自动分离人物与背景，实现专业级的人像分割效果吗？U-2-Net深度神经网络模型为你提供了完美的解决方案！🎯 这款强大的实时人像分割技术已经成功应用于Clipping Camera等热门应用，让普通用户也能享受到AI技术的便利。U-2-Net是一个基于深度学习的显著性目标检测模型，专门用于实时人像分割和背景移除。它采用独特的U型架构设计，能够在保持高精度的同时实现快速处理，完美

火山引擎 ADG 社区

如何快速掌握SnowNLP：中文文本数据预处理的终极指南

SnowNLP是一个强大的Python库，专门用于中文文本处理，提供了从分词、情感分析到文本摘要的完整功能。在前100字的介绍中，SnowNLP作为中文文本处理的关键工具，能够帮助开发者高效完成数据清洗与规范化工作。🎯## 🔍 为什么需要SnowNLP数据预处理？中文文本处理面临着独特的挑战：分词难度大、繁简体转换、停用词过滤等问题。SnowNLP通过内置的训练模型和算法，为中文文本数

火山引擎 ADG 社区

SnowNLP情感分析终极指南：如何准确判断中文文本情感倾向

SnowNLP是一款强大的Python中文文本处理库，专门为中文情感分析而生！🚀 如果你正在寻找一个简单易用、功能全面的中文情感分析工具，那么SnowNLP绝对是你的不二选择。## 什么是SnowNLP情感分析？SnowNLP情感分析功能能够自动识别中文文本的情感倾向，给出一个介于0到1之间的情感分数。**0.5分以上表示积极情感**，分数越高越积极；**0.5分以下表示消极情感**，分