Token 中转站这门生意,比你想象的要大得多

从 Ollama 到 OpenRouter,从 Azure 到去中心化 GPU——聊聊 LLM 推理层的商业逻辑与竞争格局
一、先说一个你可能没注意到的数字
2025年5月,OpenRouter 平台的年化推理消耗额约为 1 亿美元。到 2026 年初,这个数字翻了五倍,达到 5 亿美元年化规模。与此同时,平台每月处理的 Token 量超过 84 万亿。 Sacra
这是一个做「Token 中转」的平台——它自己不训练模型,不研发算法,核心业务是:把你的 API 请求,路由到合适的模型提供商,然后收一笔中间费。
OpenRouter 的收费模式是在推理消耗额上加收约 5% 的手续费。非加密支付收 5.5%,加密支付收 5.0%。 Sacra
5% 的抽成,做到了 5 亿美元年化规模,意味着平台年收入约 2500 万美元。
这门生意,值得认真聊一聊。
二、Token 中转站是什么,为什么会存在
要理解这个市场,先要理解它解决的是什么问题。
问题的起点:LLM 提供商的碎片化。
你想用 Claude 处理复杂推理,用 GPT-4o 做代码生成,用 DeepSeek 跑成本敏感的批处理任务,用 Llama 处理不能出圈的敏感数据。
理论上这很合理。实际操作起来:四套账号注册、四套 API Key 管理、四套计费系统、四套调用格式(尽管大多数遵循 OpenAI 接口规范,但细节差异依然存在)。
这就是 Token 中转站存在的基础需求:
没有中转站的世界:
你的应用 → OpenAI API Key → OpenAI
你的应用 → Anthropic API Key → Anthropic
你的应用 → Google API Key → Google
你的应用 → 本地 Ollama → 本地模型
有中转站的世界:
你的应用 → 中转站 API Key → 中转站 → [OpenAI / Anthropic / Google / 本地模型]
一个 API Key,一个账单,一套接口,访问所有模型。
这是最基础的价值主张。但不同的中转站,切入的方式和服务的客群完全不同。
三、两种截然不同的切入模式
模式一:云厂商的「企业级托管」路线——以 Azure 为例
Azure OpenAI Service 是微软把 OpenAI 的模型能力打包进自家云服务的产物。它的切入逻辑是:
不是在卖模型访问权限,是在卖企业合规基础设施。
Azure 能提供的,不只是 API 访问,而是一整套企业需要的配套:
数据主权:推理在你选择的 Azure 区域内完成
符合 GDPR、HIPAA、SOC 2 等合规要求
数据不离开你划定的地理边界
SLA 保障:有白纸黑字的服务等级协议
企业级支持合同
与现有 Azure 账户统一计费
网络隔离:私有端点部署
VNet 集成
不走公网的推理请求
代价是什么?
Azure 的延迟表现不如直接调用 OpenAI API——有研究者实测,直接调用 OpenAI 的首 Token 响应时间约 0.95 秒,而经过 Azure 路由的请求约为 1.32 秒。价格通常也高于直接购买,因为你在为合规基础设施付费。 Medium
Azure 的目标客户是:合规要求严格、数据主权敏感、已经在 Azure 生态里的企业用户。 它不跟 OpenRouter 抢开发者,它在抢的是那些"不管多少钱,数据不能出我的管控范围"的合同。
模式二:开发者优先的「统一路由」路线——以 OpenRouter 为例
OpenRouter 的切入逻辑完全不同。
它的核心价值主张只有一句话:一个 API Key,访问几百个模型,5 分钟上手,按用量付费。
你把 OpenAI SDK 的 baseURL 指向 openrouter.ai/api/v1,换上 OpenRouter 的 Key,立刻就能访问 GPT-5、Claude、Gemini、Llama、DeepSeek、Mistral 以及几百个其他模型,全部通过同一个熟悉的接口。从注册到第一次请求,5 分钟内可以完成。 TrueFoundry
它的路由策略默认按价格优先负载均衡——自动选最便宜的能跑你的请求的提供商。
这个设计产生了一个飞轮效应:使用量越大,路由数据越多,路由算法越精准,性能越好,吸引更多开发者,使用量继续增长。 Sacra
OpenRouter 的护城河不是技术壁垒,是数据积累。 它积累的跨模型、跨提供商的路由性能数据,是竞争对手难以短期复制的资产。
但它的局限性同样明显:
在每月 10 万美元的推理消耗规模上,5% 的手续费意味着你一年要为「中转」这件事单独支付 6 万美元。而 OpenRouter 的可观测性能力相对有限——没有细粒度的用户级 Token 追踪、延迟分布分析和成本优化洞察。对于合规敏感场景,每次请求经过 OpenRouter 的服务器这件事本身,就可能是一个不可逾越的障碍。 Helicone
四、Ollama:另一种切入——把推理搬到本地
在上面两种模式之外,还有一条完全不同的路线:把模型推理这件事,从云端拉回本地。
Ollama 是这个方向的代表。它的逻辑是:
# 三行命令,在本地跑起来一个 LLaMA3 实例
ollama pull llama3
ollama run llama3
# 本地暴露一个 OpenAI 兼容的 API 端点:http://localhost:11434
对开发者来说,Ollama 解决的是几个特定问题:
零 Token 成本: 本地推理不按用量计费。实验阶段、开发测试阶段,成本接近于零(除了你的电费和机器折旧)。
数据绝对不出圈: 推理在你的机器上完成,数据不经过任何外部网络节点。这对处理绝对不能离开本地环境的数据,是架构层面的唯一解。
OpenAI 兼容接口: 和 OpenRouter 一样,Ollama 暴露的是 OpenAI 兼容的 API 格式。你可以把 OpenRouter 指向本地 Ollama 实例,把本地模型接进任何支持 OpenAI 接口的工作流。
但 Ollama 的局限同样明显:性能受本地硬件限制,无法跑最顶级的闭源模型,不适合生产环境的高并发场景。 它更像是一个开发环境工具,而不是生产基础设施。
五、市场的真实竞争格局
搜集到的数据揭示了这个市场目前最有意思的趋势:
趋势一:Token 消耗量正在以令人震惊的速度增长
在 OpenRouter 上,全球主要模型的每周 Token 调用量在不到一年内增长了超过十倍——从 2025 年 3 月初的 1.24 万亿,到 2026 年 2 月中旬的 13.95 万亿。 36Kr
到 2026 年 4 月,OpenRouter 的总吞吐量已经超过每周 20 万亿 Token,是一年前的 4 倍。 Digital Applied Team
驱动这个增长的主要原因不是用户数量增加,而是任务类型的变化。
趋势二:Agent 工作流把单次请求的 Token 量放大了 100 倍
从对话型应用到长时运行的 Agent 工作流,单次请求的 Token 量从几千跳升到了 10 万到 100 万。这直接推动了 OpenRouter 每周总量从早期的万亿级别暴涨到现在的十几万亿级别。 Aicost
通过推理优化模型路由的 Token 比例在 2025 年全年持续攀升,从年初几乎可以忽略不计,到年末已经超过 50%。这反映了从「生成文本」到「规划、调用工具、跨上下文交互」的根本性转变。 OpenRouter
趋势三:中国模型正在以价格优势颠覆市场格局
2024 年底,中国开发的模型在 OpenRouter 流量中占比约 1.2%。DeepSeek V3 发布后,这个数字越过 10%。到 2026 年 4 月,已经超过 45%。没有单一提供商占据超过 23% 的市场份额,竞争格局比过去更加健康。 Digital Applied Team
驱动这个转变的核心是成本:MiniMax M2.5 的定价约为每百万输入 Token 0.30 美元,而同等能力的 Claude Opus 定价高达每百万 5-25 美元,差距高达 17-20 倍,但在 SWE-Bench 等基准测试上的得分差距不到 1%。 Aicost
这意味着什么?在中转站这一层,模型品牌忠诚度正在快速瓦解,开发者用真实的 Token 消耗在投票:性价比,才是真正的选择依据。
趋势四:中转站市场本身正在碎片化
针对 OpenRouter 的主要批评集中在三点:5% 的手续费在规模化后成本可观;可观测性能力不足,缺乏用户级 Token 追踪和延迟分析;闭源架构带来的合规风险。 Maxim Articles
这些批评催生了大量竞争者:自托管方案(LiteLLM)、零手续费托管方案(TokenMix)、云原生方案(Cloudflare AI Gateway、Vercel AI Gateway)、企业级方案(Portkey、Kong AI Gateway)。
每一种都在针对 OpenRouter 的某个弱点建立差异化。
六、一个有意思的延伸:当中转站被整合进平台
上面讨论的都是「独立中转站」——它们作为 LLM 访问的中间层单独存在。
但有一个更有趣的问题值得思考:当中转站不再独立,而是被整合进 Agent 部署平台,会发生什么?
Aethir Claw 的 MaaS 层提供了一个具体的案例。
它的做法不是让用户去 OpenRouter 或者直接对接 Anthropic 的 API,而是把 LLM API credits 直接打包进 Agent 托管平台的订阅——用户不需要管理任何外部 API Key,推理通过 Aethir 的统一层处理,当前接入 Claude、GPT-4o、Gemini 等前沿模型,以及主流开源模型。
从架构角度,这是一种「垂直整合」的思路,对比独立中转站有几个不同的取舍:
独立中转站(OpenRouter 模式):✓ 模型选择最大化自由度
✓ 对所有上层应用通用
✗ 额外的手续费层
✗ 数据额外经过一跳
✗ 与 Agent 托管层分离,运维碎片化
垂直整合(Aethir Claw MaaS 模式):
✓ 推理与部署同平台,运维复杂度降低
✓ 数据不需要路由到独立中转站
✓ 统一计费,成本可预测
✗ 模型选择受平台支持范围限制
✗ 对平台的依赖程度更高
在 Aethir 的长期技术路线上,目标是在自有的去中心化 GPU 网络上直接托管顶级模型。如果这个目标实现,推理数据从架构层面真正不出平台——这是独立中转站无论如何都无法提供的数据主权保障。
这代表了这个市场可能出现的一个演化方向:中转层不再是独立的基础设施服务,而是被垂直整合进更完整的 Agent 部署平台。
七、这门生意的天花板和风险
说完机会,也要说清楚风险。
风险一:模型提供商可以随时绕过中转层
OpenAI、Anthropic、Google 都有动力直接服务开发者——它们在持续优化开发者体验,降低接入门槛。如果某天直接调用官方 API 和使用中转站一样方便,中转站的便利性价值就消失了。
风险二:手续费模式在规模化后面临压力
当推理消耗达到月均 10 万美元时,5% 的手续费意味着中转费用一年高达 6 万美元。在这个规模上,自建 LiteLLM 的工程成本完全可以覆盖,越来越多的团队会选择绕过中转站。 Helicone
风险三:中国模型的崛起正在压缩利润空间
当 Token 单价持续下降,中转站的绝对利润也在压缩。5% 的抽成,在每百万 Token 0.30 美元的定价上,和在每百万 Token 15 美元的定价上,完全是两种量级的生意。
但天花板同样清晰:
Agent 工作流的普及正在让每次请求的 Token 消耗量级上升。使用量增长带来的路由数据积累,形成了竞争对手难以复制的智能路由能力,这是 OpenRouter 最深的护城河。同时,平台正在从按量计费向固定月订阅模式演进,这会进一步提高收入的可预测性。 Sacra
八、最后,一个判断框架
如果你在做技术选型,面对的问题是「我的 LLM 推理请求应该走哪条路」,有几个问题值得先想清楚:
你对数据主权有多敏感? 数据绝对不出本地 → Ollama。数据在可控的云环境里 → Azure 类云厂商方案。数据可以经过第三方中转 → OpenRouter 类独立中转站。
你的推理规模在哪个量级? 月均消耗 1000 美元以下,OpenRouter 的便利性远超自建成本。月均消耗 10 万美元以上,手续费成本值得认真计算,自建或者谈企业协议开始变得合理。
你需要多模型灵活切换吗? 如果是,中转站的价值是真实的。如果你长期只用一个模型,中转层只是额外的一跳。
你的 Agent 需要和推理层紧耦合吗? 如果是,垂直整合方案(推理和部署同平台)比独立中转站更适合。
这些问题没有统一答案,但它们决定了你应该走哪条路。
Token 中转这门生意的本质,是在模型提供商和应用开发者之间建立一个有价值的中间层。这个中间层能不能长期存在,取决于它能不能持续提供单靠直连无法获得的价值。
目前来看,答案是肯定的。但市场在快速演化,每隔几个月就会出现新的竞争者和新的整合方式。
这个赛道,还没到定局的时候。
更多推荐

所有评论(0)