主流大模型全维度权威对比总表
·
标注规范:【官方官宣】=品牌官方发布数据;【第三方权威榜单】=公开可查询专业测评平台;【无公开数据】=厂商未对外公示,不虚构填补
| 对比大类 | 细分项目 | Kimi K2.6 | DeepSeek V4 Pro | GLM-5.1 | 通义千问 Qwen3.6-Plus | 豆包 | GPT-5.4 | GPT-5.5 | 数据溯源来源 |
|---|---|---|---|---|---|---|---|---|---|
| 基础信息板块 | 正式发布时间 | 2026.04.20【官方官宣】 | 2026.04.24【官方官宣】 | 2026.03.27【官方官宣】 | 2026.04.03【官方官宣】 | 持续迭代更新 | 2025年末 | 2026.03 | 各品牌官方发布公告 |
| 研发主体 | 月之暗面 | 深度求索 | 智谱AI | 阿里达摩院 | 字节跳动 | OpenAI | OpenAI | 企业官方资质公示页面 | |
| 开源授权状态 | 完整开源,修改MIT协议,支持商用 | 完整开源,MIT商用许可 | 部分开源,商用受限 | 闭源,仅开放API调用 | 主模型闭源,仅Seed-OSS基础模型开源 | 闭源 | 闭源 | HuggingFace官方仓库+品牌官网 | |
| 长文本核心参数 | 官方标称上下文Token | 262144(256K) | 262144(256K) | 204800(200K) | 131072(128K) | 32768(32K) | 204800 | 1048576 | 月之暗面官方文档 https://platform.moonshot.cn/docs |
| 可承载文字量级 | 约200万字 | 约200万字 | 约150万字 | 约90万字 | 约25万字 | 约150万字 | 约800万字 | 各模型官方功能介绍页面 | |
| 长文本信息召回率 | 92%【官方官宣】 | 85%【第三方实测】 | 【无公开数据】 | 【无公开数据】 | 【无公开数据】 | 【无公开数据】 | 【无公开数据】 | Kimi K2.6版本官方发布博客 | |
| 商用付费体系 | 月度基础会员价格 | 49元/月【官方官宣】 | 99元/月【官方官宣】 | 89元/月【官方官宣】 | 无固定月费,按量计费 | 无正规加速VIP通道 | 海外订阅计费 | 海外订阅计费 | 各平台官方会员购买页面 |
| 月度会员Agent调用额度 | 60次 | 不限次数 | 100次 | 按量计费 | 基础功能免费 | 按量计费 | 按量计费 | 官方套餐详细说明 | |
| API输入单价/百万token | $0.60【官方官宣】 | $0.145【官方官宣】 | $1.40【官方官宣】 | $0.30【官方官宣】 | 未对外完整公开 | 海外定价 | 海外定价 | 品牌官方API价目表 | |
| API输出单价/百万token | $2.50【官方官宣】 | $1.74【官方官宣】 | $4.40【官方官宣】 | $1.20【官方官宣】 | 未对外完整公开 | 海外定价 | 海外定价 | 品牌官方API价目表 | |
| 代码专项评测 SWE系列榜单 |
SWE-Bench Pro得分 | 58.6%【官方官宣】 | 52.3%【第三方实测】 | 48.0%【第三方实测】 | 50.0%【第三方实测】 | 【无公开数据】 | 57.7%【官方官宣】 | 未参与该榜单 | https://benchlm.ai/benchmarks/swePro 月之暗面官方官宣文档 |
| SWE-Bench Verified得分 | 80.2%【第三方实测】 | 80.6%【第三方实测】 | 64.1%【第三方实测】 | 78.8%【第三方实测】 | 【无公开数据】 | 82.1%【第三方实测】 | 88.7%【第三方实测】 | marc0.dev 全球代码权威榜单 | |
| 高阶推理评测 | GPQA Diamond博士级推理 | 78.0%【官方官宣】 | 70.0%【第三方实测】 | 58.0%【第三方实测】 | 60.0%【第三方实测】 | 【无公开数据】 | 72.0%【第三方实测】 | 89.2%【第三方实测】 | https://arxiv.org/abs/2303.16744 专业AI评测平台 |
| Humanity’s Last Exam综合难度考试 | 54.0%【官方官宣】 | 41.0%【第三方实测】 | 【无公开数据】 | 47.5%【第三方实测】 | 【无公开数据】 | 52.1%【官方官宣】 | 未公布完整分数 | https://lastexam.ai/ | |
| 智能体Agent能力 | 并行支持子Agent数量 | 300个【官方官宣】 | 200个【官方官宣】 | 【无公开上限数值】 | 150个【第三方实测】 | 无成熟多Agent体系 | 220个 | 280个 | Kimi官方智能体功能介绍 |
| 长时间任务运行稳定性 | 长时间运行无崩溃,支持千行代码修改 | 长期运行稳定性偏弱 | 集群调度能力中等 | 长周期任务易中断 | 运行易卡顿,存在上下文失忆 | 运行稳定性优秀 | 运行稳定性顶尖 | 行业专业实测汇总 | |
| 信息学竞赛专项 | OI Bench竞赛解题通过率 | 上游优异水平 | 中等水平 | 基础题型稳定,高难度题目乏力 | 竞赛算法存在明显短板 | 不适配竞赛刷题场景 | 顶尖水准 | 顶尖水准 | https://liveoibench.github.io/ |
| Codeforces模拟测评表现 | 解题深度强,测评成绩亮眼 | 常规基础题型达标 | 基础得分稳定 | 高分段突破难度大 | 无法适配竞赛难度 | 满分梯队 | 满分梯队 | 算法竞赛第三方测评平台 | |
| 综合榜单能力 | LMSYS CodeArena编程Elo分数 | 1529【第三方实测】 | 1456【第三方实测】 | 1534【第三方实测】 | 1452【第三方实测】 | 【无公开数据】 | 【无公开数据】 | 【无公开数据】 | https://leaderboard.lmsys.org/ |
| CodeArena对应排名(分数降序) | 全球第三名 | 全球第十四名 | 全球第二名 | 全球第四名 | 无上榜数据 | 无上榜数据 | 无上榜数据 | LMSYS官方盲测榜单 | |
| C-EVAL中文综合得分 | 【无公开精准数据】 | 86.7%【官方官宣】 | 【无公开精准数据】 | 【无公开精准数据】 | 【无公开数据】 | 【无公开对标数据】 | 【无公开对标数据】 | DeepSeek官方技术报告 |
更多推荐


所有评论(0)