主流大模型全维度权威对比总表

千里之行，始于足下585

394人浏览 · 2026-06-12 11:01:31

千里之行，始于足下585 · 2026-06-12 11:01:31 发布

标注规范：【官方官宣】=品牌官方发布数据；【第三方权威榜单】=公开可查询专业测评平台；【无公开数据】=厂商未对外公示，不虚构填补

对比大类	细分项目	Kimi K2.6	DeepSeek V4 Pro	GLM-5.1	通义千问 Qwen3.6-Plus	豆包	GPT-5.4	GPT-5.5	数据溯源来源
基础信息板块	正式发布时间	2026.04.20【官方官宣】	2026.04.24【官方官宣】	2026.03.27【官方官宣】	2026.04.03【官方官宣】	持续迭代更新	2025年末	2026.03	各品牌官方发布公告
	研发主体	月之暗面	深度求索	智谱AI	阿里达摩院	字节跳动	OpenAI	OpenAI	企业官方资质公示页面
	开源授权状态	完整开源，修改MIT协议，支持商用	完整开源，MIT商用许可	部分开源，商用受限	闭源，仅开放API调用	主模型闭源，仅Seed-OSS基础模型开源	闭源	闭源	HuggingFace官方仓库+品牌官网
长文本核心参数	官方标称上下文Token	262144（256K）	262144（256K）	204800（200K）	131072（128K）	32768（32K）	204800	1048576	月之暗面官方文档 https://platform.moonshot.cn/docs
	可承载文字量级	约200万字	约200万字	约150万字	约90万字	约25万字	约150万字	约800万字	各模型官方功能介绍页面
	长文本信息召回率	92%【官方官宣】	85%【第三方实测】	【无公开数据】	【无公开数据】	【无公开数据】	【无公开数据】	【无公开数据】	Kimi K2.6版本官方发布博客
商用付费体系	月度基础会员价格	49元/月【官方官宣】	99元/月【官方官宣】	89元/月【官方官宣】	无固定月费，按量计费	无正规加速VIP通道	海外订阅计费	海外订阅计费	各平台官方会员购买页面
	月度会员Agent调用额度	60次	不限次数	100次	按量计费	基础功能免费	按量计费	按量计费	官方套餐详细说明
	API输入单价/百万token	$0.60【官方官宣】	$0.145【官方官宣】	$1.40【官方官宣】	$0.30【官方官宣】	未对外完整公开	海外定价	海外定价	品牌官方API价目表
	API输出单价/百万token	$2.50【官方官宣】	$1.74【官方官宣】	$4.40【官方官宣】	$1.20【官方官宣】	未对外完整公开	海外定价	海外定价	品牌官方API价目表
代码专项评测 SWE系列榜单	SWE-Bench Pro得分	58.6%【官方官宣】	52.3%【第三方实测】	48.0%【第三方实测】	50.0%【第三方实测】	【无公开数据】	57.7%【官方官宣】	未参与该榜单	https://benchlm.ai/benchmarks/swePro 月之暗面官方官宣文档
	SWE-Bench Verified得分	80.2%【第三方实测】	80.6%【第三方实测】	64.1%【第三方实测】	78.8%【第三方实测】	【无公开数据】	82.1%【第三方实测】	88.7%【第三方实测】	marc0.dev 全球代码权威榜单
高阶推理评测	GPQA Diamond博士级推理	78.0%【官方官宣】	70.0%【第三方实测】	58.0%【第三方实测】	60.0%【第三方实测】	【无公开数据】	72.0%【第三方实测】	89.2%【第三方实测】	https://arxiv.org/abs/2303.16744 专业AI评测平台
	Humanity’s Last Exam综合难度考试	54.0%【官方官宣】	41.0%【第三方实测】	【无公开数据】	47.5%【第三方实测】	【无公开数据】	52.1%【官方官宣】	未公布完整分数	https://lastexam.ai/
智能体Agent能力	并行支持子Agent数量	300个【官方官宣】	200个【官方官宣】	【无公开上限数值】	150个【第三方实测】	无成熟多Agent体系	220个	280个	Kimi官方智能体功能介绍
	长时间任务运行稳定性	长时间运行无崩溃，支持千行代码修改	长期运行稳定性偏弱	集群调度能力中等	长周期任务易中断	运行易卡顿，存在上下文失忆	运行稳定性优秀	运行稳定性顶尖	行业专业实测汇总
信息学竞赛专项	OI Bench竞赛解题通过率	上游优异水平	中等水平	基础题型稳定，高难度题目乏力	竞赛算法存在明显短板	不适配竞赛刷题场景	顶尖水准	顶尖水准	https://liveoibench.github.io/
	Codeforces模拟测评表现	解题深度强，测评成绩亮眼	常规基础题型达标	基础得分稳定	高分段突破难度大	无法适配竞赛难度	满分梯队	满分梯队	算法竞赛第三方测评平台
综合榜单能力	LMSYS CodeArena编程Elo分数	1529【第三方实测】	1456【第三方实测】	1534【第三方实测】	1452【第三方实测】	【无公开数据】	【无公开数据】	【无公开数据】	https://leaderboard.lmsys.org/
	CodeArena对应排名（分数降序）	全球第三名	全球第十四名	全球第二名	全球第四名	无上榜数据	无上榜数据	无上榜数据	LMSYS官方盲测榜单
	C-EVAL中文综合得分	【无公开精准数据】	86.7%【官方官宣】	【无公开精准数据】	【无公开精准数据】	【无公开数据】	【无公开对标数据】	【无公开对标数据】	DeepSeek官方技术报告

智能体开发者社区

中国智能体开发者社区，聚焦智能体与大模型开发，提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动，促进经验交流与协作，助力开发者快速构建创新智能应用。

更多推荐

5 分钟完成 OpenClaw 2.7.9 部署，电脑自动化工具落地教程

智能体开发者社区

本地离线 AI 自动化工具 OpenClaw 2.7.9 完整安装排坑指南

智能体开发者社区

【训练与微调篇05】RLHF/DPO/GRPO：大模型人类偏好对齐技术深度解析

摘要：本文深入解析了大模型人类偏好对齐技术（RLHF/DPO/GRPO）的演进与实现。对齐（Alignment）旨在让模型满足有益、诚实、无害三要素，通过三阶段（SFT、奖励建模、强化学习）实现。传统RLHF依赖PPO优化策略，但训练复杂；DPO省去奖励模型，直接优化偏好；2024年DeepSeek R1提出的GRPO通过群体策略优化成为开源首选。2026年ICML提出的SelectiveRM利