Token 中转站这门生意，比你想象的要大得多

Zachary Zhang781

577人浏览 · 2026-05-26 14:11:25

Zachary Zhang781 · 2026-05-26 14:11:25 发布

从 Ollama 到 OpenRouter，从 Azure 到去中心化 GPU——聊聊 LLM 推理层的商业逻辑与竞争格局

一、先说一个你可能没注意到的数字

2025年5月，OpenRouter 平台的年化推理消耗额约为 1 亿美元。到 2026 年初，这个数字翻了五倍，达到 5 亿美元年化规模。与此同时，平台每月处理的 Token 量超过 84 万亿。 Sacra

这是一个做「Token 中转」的平台——它自己不训练模型，不研发算法，核心业务是：把你的 API 请求，路由到合适的模型提供商，然后收一笔中间费。

OpenRouter 的收费模式是在推理消耗额上加收约 5% 的手续费。非加密支付收 5.5%，加密支付收 5.0%。 Sacra

5% 的抽成，做到了 5 亿美元年化规模，意味着平台年收入约 2500 万美元。

这门生意，值得认真聊一聊。

二、Token 中转站是什么，为什么会存在

要理解这个市场，先要理解它解决的是什么问题。

问题的起点：LLM 提供商的碎片化。

你想用 Claude 处理复杂推理，用 GPT-4o 做代码生成，用 DeepSeek 跑成本敏感的批处理任务，用 Llama 处理不能出圈的敏感数据。

理论上这很合理。实际操作起来：四套账号注册、四套 API Key 管理、四套计费系统、四套调用格式（尽管大多数遵循 OpenAI 接口规范，但细节差异依然存在）。

这就是 Token 中转站存在的基础需求：

没有中转站的世界：

你的应用 → OpenAI API Key → OpenAI
你的应用 → Anthropic API Key → Anthropic
你的应用 → Google API Key → Google
你的应用 → 本地 Ollama → 本地模型

有中转站的世界：

你的应用 → 中转站 API Key → 中转站 → [OpenAI / Anthropic / Google / 本地模型]
一个 API Key，一个账单，一套接口，访问所有模型。

这是最基础的价值主张。但不同的中转站，切入的方式和服务的客群完全不同。

三、两种截然不同的切入模式

模式一：云厂商的「企业级托管」路线——以 Azure 为例

Azure OpenAI Service 是微软把 OpenAI 的模型能力打包进自家云服务的产物。它的切入逻辑是：

不是在卖模型访问权限，是在卖企业合规基础设施。

Azure 能提供的，不只是 API 访问，而是一整套企业需要的配套：

数据主权：推理在你选择的 Azure 区域内完成
          符合 GDPR、HIPAA、SOC 2 等合规要求
          数据不离开你划定的地理边界
SLA 保障：有白纸黑字的服务等级协议
          企业级支持合同
          与现有 Azure 账户统一计费
网络隔离：私有端点部署
          VNet 集成
          不走公网的推理请求

代价是什么？

Azure 的延迟表现不如直接调用 OpenAI API——有研究者实测，直接调用 OpenAI 的首 Token 响应时间约 0.95 秒，而经过 Azure 路由的请求约为 1.32 秒。价格通常也高于直接购买，因为你在为合规基础设施付费。 Medium

Azure 的目标客户是：合规要求严格、数据主权敏感、已经在 Azure 生态里的企业用户。 它不跟 OpenRouter 抢开发者，它在抢的是那些"不管多少钱，数据不能出我的管控范围"的合同。

模式二：开发者优先的「统一路由」路线——以 OpenRouter 为例

OpenRouter 的切入逻辑完全不同。

它的核心价值主张只有一句话：一个 API Key，访问几百个模型，5 分钟上手，按用量付费。

你把 OpenAI SDK 的 baseURL 指向 openrouter.ai/api/v1，换上 OpenRouter 的 Key，立刻就能访问 GPT-5、Claude、Gemini、Llama、DeepSeek、Mistral 以及几百个其他模型，全部通过同一个熟悉的接口。从注册到第一次请求，5 分钟内可以完成。 TrueFoundry

它的路由策略默认按价格优先负载均衡——自动选最便宜的能跑你的请求的提供商。

这个设计产生了一个飞轮效应：使用量越大，路由数据越多，路由算法越精准，性能越好，吸引更多开发者，使用量继续增长。 Sacra

OpenRouter 的护城河不是技术壁垒，是数据积累。 它积累的跨模型、跨提供商的路由性能数据，是竞争对手难以短期复制的资产。

但它的局限性同样明显：

在每月 10 万美元的推理消耗规模上，5% 的手续费意味着你一年要为「中转」这件事单独支付 6 万美元。而 OpenRouter 的可观测性能力相对有限——没有细粒度的用户级 Token 追踪、延迟分布分析和成本优化洞察。对于合规敏感场景，每次请求经过 OpenRouter 的服务器这件事本身，就可能是一个不可逾越的障碍。 Helicone

四、Ollama：另一种切入——把推理搬到本地

在上面两种模式之外，还有一条完全不同的路线：把模型推理这件事，从云端拉回本地。

Ollama 是这个方向的代表。它的逻辑是：

# 三行命令，在本地跑起来一个 LLaMA3 实例
ollama pull llama3
ollama run llama3
# 本地暴露一个 OpenAI 兼容的 API 端点：http://localhost:11434

对开发者来说，Ollama 解决的是几个特定问题：

零 Token 成本： 本地推理不按用量计费。实验阶段、开发测试阶段，成本接近于零（除了你的电费和机器折旧）。

数据绝对不出圈： 推理在你的机器上完成，数据不经过任何外部网络节点。这对处理绝对不能离开本地环境的数据，是架构层面的唯一解。

OpenAI 兼容接口： 和 OpenRouter 一样，Ollama 暴露的是 OpenAI 兼容的 API 格式。你可以把 OpenRouter 指向本地 Ollama 实例，把本地模型接进任何支持 OpenAI 接口的工作流。

但 Ollama 的局限同样明显：性能受本地硬件限制，无法跑最顶级的闭源模型，不适合生产环境的高并发场景。 它更像是一个开发环境工具，而不是生产基础设施。

五、市场的真实竞争格局

搜集到的数据揭示了这个市场目前最有意思的趋势：

趋势一：Token 消耗量正在以令人震惊的速度增长

在 OpenRouter 上，全球主要模型的每周 Token 调用量在不到一年内增长了超过十倍——从 2025 年 3 月初的 1.24 万亿，到 2026 年 2 月中旬的 13.95 万亿。 36Kr

到 2026 年 4 月，OpenRouter 的总吞吐量已经超过每周 20 万亿 Token，是一年前的 4 倍。 Digital Applied Team

驱动这个增长的主要原因不是用户数量增加，而是任务类型的变化。

趋势二：Agent 工作流把单次请求的 Token 量放大了 100 倍

从对话型应用到长时运行的 Agent 工作流，单次请求的 Token 量从几千跳升到了 10 万到 100 万。这直接推动了 OpenRouter 每周总量从早期的万亿级别暴涨到现在的十几万亿级别。 Aicost

通过推理优化模型路由的 Token 比例在 2025 年全年持续攀升，从年初几乎可以忽略不计，到年末已经超过 50%。这反映了从「生成文本」到「规划、调用工具、跨上下文交互」的根本性转变。 OpenRouter

趋势三：中国模型正在以价格优势颠覆市场格局

2024 年底，中国开发的模型在 OpenRouter 流量中占比约 1.2%。DeepSeek V3 发布后，这个数字越过 10%。到 2026 年 4 月，已经超过 45%。没有单一提供商占据超过 23% 的市场份额，竞争格局比过去更加健康。 Digital Applied Team

驱动这个转变的核心是成本：MiniMax M2.5 的定价约为每百万输入 Token 0.30 美元，而同等能力的 Claude Opus 定价高达每百万 5-25 美元，差距高达 17-20 倍，但在 SWE-Bench 等基准测试上的得分差距不到 1%。 Aicost

这意味着什么？在中转站这一层，模型品牌忠诚度正在快速瓦解，开发者用真实的 Token 消耗在投票：性价比，才是真正的选择依据。

趋势四：中转站市场本身正在碎片化

针对 OpenRouter 的主要批评集中在三点：5% 的手续费在规模化后成本可观；可观测性能力不足，缺乏用户级 Token 追踪和延迟分析；闭源架构带来的合规风险。 Maxim Articles

这些批评催生了大量竞争者：自托管方案（LiteLLM）、零手续费托管方案（TokenMix）、云原生方案（Cloudflare AI Gateway、Vercel AI Gateway）、企业级方案（Portkey、Kong AI Gateway）。

每一种都在针对 OpenRouter 的某个弱点建立差异化。

六、一个有意思的延伸：当中转站被整合进平台

上面讨论的都是「独立中转站」——它们作为 LLM 访问的中间层单独存在。

但有一个更有趣的问题值得思考：当中转站不再独立，而是被整合进 Agent 部署平台，会发生什么？

Aethir Claw 的 MaaS 层提供了一个具体的案例。

它的做法不是让用户去 OpenRouter 或者直接对接 Anthropic 的 API，而是把 LLM API credits 直接打包进 Agent 托管平台的订阅——用户不需要管理任何外部 API Key，推理通过 Aethir 的统一层处理，当前接入 Claude、GPT-4o、Gemini 等前沿模型，以及主流开源模型。

从架构角度，这是一种「垂直整合」的思路，对比独立中转站有几个不同的取舍：

独立中转站（OpenRouter 模式）：
✓ 模型选择最大化自由度 ✓ 对所有上层应用通用 ✗ 额外的手续费层 ✗ 数据额外经过一跳 ✗ 与 Agent 托管层分离，运维碎片化垂直整合（Aethir Claw MaaS 模式）： ✓ 推理与部署同平台，运维复杂度降低 ✓ 数据不需要路由到独立中转站 ✓ 统一计费，成本可预测 ✗ 模型选择受平台支持范围限制 ✗ 对平台的依赖程度更高

在 Aethir 的长期技术路线上，目标是在自有的去中心化 GPU 网络上直接托管顶级模型。如果这个目标实现，推理数据从架构层面真正不出平台——这是独立中转站无论如何都无法提供的数据主权保障。

这代表了这个市场可能出现的一个演化方向：中转层不再是独立的基础设施服务，而是被垂直整合进更完整的 Agent 部署平台。

七、这门生意的天花板和风险

说完机会，也要说清楚风险。

风险一：模型提供商可以随时绕过中转层

OpenAI、Anthropic、Google 都有动力直接服务开发者——它们在持续优化开发者体验，降低接入门槛。如果某天直接调用官方 API 和使用中转站一样方便，中转站的便利性价值就消失了。

风险二：手续费模式在规模化后面临压力

当推理消耗达到月均 10 万美元时，5% 的手续费意味着中转费用一年高达 6 万美元。在这个规模上，自建 LiteLLM 的工程成本完全可以覆盖，越来越多的团队会选择绕过中转站。 Helicone

风险三：中国模型的崛起正在压缩利润空间

当 Token 单价持续下降，中转站的绝对利润也在压缩。5% 的抽成，在每百万 Token 0.30 美元的定价上，和在每百万 Token 15 美元的定价上，完全是两种量级的生意。

但天花板同样清晰：

Agent 工作流的普及正在让每次请求的 Token 消耗量级上升。使用量增长带来的路由数据积累，形成了竞争对手难以复制的智能路由能力，这是 OpenRouter 最深的护城河。同时，平台正在从按量计费向固定月订阅模式演进，这会进一步提高收入的可预测性。 Sacra

八、最后，一个判断框架

如果你在做技术选型，面对的问题是「我的 LLM 推理请求应该走哪条路」，有几个问题值得先想清楚：

你对数据主权有多敏感？ 数据绝对不出本地 → Ollama。数据在可控的云环境里 → Azure 类云厂商方案。数据可以经过第三方中转 → OpenRouter 类独立中转站。

你的推理规模在哪个量级？ 月均消耗 1000 美元以下，OpenRouter 的便利性远超自建成本。月均消耗 10 万美元以上，手续费成本值得认真计算，自建或者谈企业协议开始变得合理。

你需要多模型灵活切换吗？ 如果是，中转站的价值是真实的。如果你长期只用一个模型，中转层只是额外的一跳。

你的 Agent 需要和推理层紧耦合吗？ 如果是，垂直整合方案（推理和部署同平台）比独立中转站更适合。

这些问题没有统一答案，但它们决定了你应该走哪条路。

Token 中转这门生意的本质，是在模型提供商和应用开发者之间建立一个有价值的中间层。这个中间层能不能长期存在，取决于它能不能持续提供单靠直连无法获得的价值。

目前来看，答案是肯定的。但市场在快速演化，每隔几个月就会出现新的竞争者和新的整合方式。

这个赛道，还没到定局的时候。

智能体开发者社区

中国智能体开发者社区，聚焦智能体与大模型开发，提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动，促进经验交流与协作，助力开发者快速构建创新智能应用。

更多推荐

Function Call

本文深入解析了LLM（大语言模型）中Function Call的工作原理与实现机制。核心观点是：LLM本身不执行函数，仅输出结构化JSON指令，由外部代码实际执行。文章对比了新旧两套协议格式（旧版functions字段与新版tools API），分析了OpenAI、Anthropic Claude和Google Gemini等主流平台的实现差异，并提及新兴的MCP标准化协议趋势。作者强调新版too