参数量20B以上大模型03.13——CLiB大模型排行榜
评测维度:医疗、教育、法律、行政公务、推理与数学计算、语言与指令遵从。
评测维度:医疗、教育、法律、行政公务、推理与数学计算、语言与指令遵从。
以下为排行榜:
输出价格单位:(元/M tok)
|
排名 |
大模型 |
机构 |
输出价格 |
总分 |
|
1 |
DeepSeek-R1 |
深度求索 |
16.00 |
86.90 |
|
2 |
qwq-32b(new) |
阿里巴巴 |
6.00 |
83.70 |
|
3 |
qwq-32b-preview |
阿里巴巴 |
7.00 |
77.00 |
|
4 |
DeepSeek-R1-Distill-Qwen-32B |
深度求索 |
1.26 |
77.00 |
|
5 |
qwen2.5-72b-instruct |
阿里巴巴 |
12.00 |
76.40 |
|
6 |
qwen2.5-32b-instruct |
阿里巴巴 |
7.00 |
75.30 |
|
7 |
deepseek-chat-v3 |
深度求索 |
8.00 |
74.20 |
|
8 |
DeepSeek-R1-Distill-Llama-70B |
深度求索 |
4.13 |
70.80 |
|
9 |
Meta-Llama-3.1-405B-Instruct |
Meta |
21.00 |
68.40 |
|
10 |
Llama-3.3-70B-Instruct |
meta |
4.13 |
66.80 |
|
11 |
qwen2.5-math-72b-instruct |
阿里巴巴 |
12.00 |
66.50 |
|
12 |
Yi-1.5-34B-Chat |
零一万物 |
1.26 |
66.10 |
|
13 |
Llama-3.3-70B-Instruct-fp8 |
meta |
2.20 |
65.90 |
|
14 |
Llama-3.1-Nemotron-70B-Instruct-fp8 |
nvidia |
2.20 |
65.60 |
|
15 |
Hermes-3-Llama-3.1-405B |
NousResearch |
5.80 |
65.20 |
|
16 |
gemma-2-27b-it |
|
1.26 |
57.30 |
医疗领域排行榜:
医疗领域目前囊括8个维度: 医师考试-规培结业,医师考试-执业助理医师,医师考试-执业医师 ,医师考试-中级职称,医师考试-高级职称,护理考试-护士执业资格,护理考试-主管护师,护理考试-高级护师。其中规培结业含外科、皮肤科等18个方向,执业助理医师含临床执业助理医师、口腔执业助理医师等5个方向,执业医师含中西医结合执业医师、公共卫生执业医师等5个方向。
|
排名 |
大模型 |
机构 |
输出价格 |
医疗 |
|
1 |
DeepSeek-R1 |
深度求索 |
16.00 |
82.70 |
|
2 |
qwq-32b(new) |
阿里巴巴 |
6.00 |
76.20 |
|
3 |
qwen2.5-72b-instruct |
阿里巴巴 |
12.00 |
74.50 |
|
4 |
qwq-32b-preview |
阿里巴巴 |
7.00 |
73.80 |
|
5 |
qwen2.5-32b-instruct |
阿里巴巴 |
7.00 |
71.50 |
|
6 |
deepseek-chat-v3 |
深度求索 |
8.00 |
71.30 |
|
7 |
Meta-Llama-3.1-405B-Instruct |
Meta |
21.00 |
70.70 |
|
8 |
DeepSeek-R1-Distill-Qwen-32B |
深度求索 |
1.26 |
70.00 |
|
9 |
Llama-3.1-Nemotron-70B-Instruct-fp8 |
nvidia |
2.20 |
63.10 |
|
10 |
Llama-3.3-70B-Instruct-fp8 |
meta |
2.20 |
62.40 |
|
11 |
Llama-3.3-70B-Instruct |
meta |
4.13 |
62.00 |
|
12 |
DeepSeek-R1-Distill-Llama-70B |
深度求索 |
4.13 |
58.90 |
|
13 |
Hermes-3-Llama-3.1-405B |
NousResearch |
5.80 |
55.90 |
|
14 |
gemma-2-27b-it |
|
1.26 |
42.80 |
|
15 |
qwen2.5-math-72b-instruct |
阿里巴巴 |
12.00 |
/ |
|
16 |
Yi-1.5-34B-Chat |
零一万物 |
1.26 |
/ |
教育领域排行榜:
教育领域目前囊括4个维度:高考,高中各学科,初中各学科,小学各学科。
|
排名 |
大模型 |
机构 |
输出价格 |
教育 |
|
1 |
DeepSeek-R1 |
深度求索 |
16.00 |
94.30 |
|
2 |
qwq-32b(new) |
阿里巴巴 |
6.00 |
91.60 |
|
3 |
DeepSeek-R1-Distill-Qwen-32B |
深度求索 |
1.26 |
88.80 |
|
4 |
qwq-32b-preview |
阿里巴巴 |
7.00 |
87.40 |
|
5 |
qwen2.5-32b-instruct |
阿里巴巴 |
7.00 |
86.80 |
|
6 |
qwen2.5-72b-instruct |
阿里巴巴 |
12.00 |
85.50 |
|
7 |
deepseek-chat-v3 |
深度求索 |
8.00 |
82.90 |
|
8 |
Yi-1.5-34B-Chat |
零一万物 |
1.26 |
79.50 |
|
9 |
DeepSeek-R1-Distill-Llama-70B |
深度求索 |
4.13 |
79.40 |
|
10 |
qwen2.5-math-72b-instruct |
阿里巴巴 |
12.00 |
71.70 |
|
11 |
Llama-3.3-70B-Instruct |
meta |
4.13 |
70.20 |
|
12 |
Hermes-3-Llama-3.1-405B |
NousResearch |
5.80 |
70.10 |
|
13 |
Meta-Llama-3.1-405B-Instruct |
Meta |
21.00 |
69.10 |
|
14 |
Llama-3.3-70B-Instruct-fp8 |
meta |
2.20 |
68.30 |
|
15 |
Llama-3.1-Nemotron-70B-Instruct-fp8 |
nvidia |
2.20 |
67.20 |
|
16 |
gemma-2-27b-it |
|
1.26 |
63.70 |
法律领域排行榜:
法律领域目前囊括1个维度:JEC-QA律师资格考试。
|
排名 |
大模型 |
机构 |
输出价格 |
法律 |
|
1 |
DeepSeek-R1 |
深度求索 |
16.00 |
71.70 |
|
2 |
qwq-32b(new) |
阿里巴巴 |
6.00 |
62.80 |
|
3 |
qwen2.5-32b-instruct |
阿里巴巴 |
7.00 |
51.90 |
|
4 |
qwq-32b-preview |
阿里巴巴 |
7.00 |
50.80 |
|
5 |
DeepSeek-R1-Distill-Qwen-32B |
深度求索 |
1.26 |
49.20 |
|
6 |
qwen2.5-72b-instruct |
阿里巴巴 |
12.00 |
49.10 |
|
7 |
deepseek-chat-v3 |
深度求索 |
8.00 |
39.50 |
|
8 |
Yi-1.5-34B-Chat |
零一万物 |
1.26 |
38.90 |
|
9 |
Meta-Llama-3.1-405B-Instruct |
Meta |
21.00 |
37.40 |
|
10 |
DeepSeek-R1-Distill-Llama-70B |
深度求索 |
4.13 |
35.20 |
|
11 |
Llama-3.1-Nemotron-70B-Instruct-fp8 |
nvidia |
2.20 |
33.10 |
|
12 |
qwen2.5-math-72b-instruct |
阿里巴巴 |
12.00 |
31.00 |
|
13 |
Llama-3.3-70B-Instruct |
meta |
4.13 |
29.40 |
|
14 |
Hermes-3-Llama-3.1-405B |
NousResearch |
5.80 |
29.40 |
|
15 |
Llama-3.3-70B-Instruct-fp8 |
meta |
2.20 |
28.50 |
|
16 |
gemma-2-27b-it |
|
1.26 |
22.90 |
行政公务领域排行榜:
行政公务领域目前囊括1个维度:公务员考试。
|
排名 |
大模型 |
机构 |
输出价格 |
行政公务 |
|
1 |
DeepSeek-R1 |
深度求索 |
16.00 |
88.60 |
|
2 |
qwq-32b(new) |
阿里巴巴 |
6.00 |
86.50 |
|
3 |
qwq-32b-preview |
阿里巴巴 |
7.00 |
78.00 |
|
4 |
DeepSeek-R1-Distill-Llama-70B |
深度求索 |
4.13 |
77.50 |
|
5 |
DeepSeek-R1-Distill-Qwen-32B |
深度求索 |
1.26 |
76.20 |
|
6 |
deepseek-chat-v3 |
深度求索 |
8.00 |
72.70 |
|
7 |
qwen2.5-72b-instruct |
阿里巴巴 |
12.00 |
71.70 |
|
8 |
qwen2.5-32b-instruct |
阿里巴巴 |
7.00 |
70.00 |
|
9 |
qwen2.5-math-72b-instruct |
阿里巴巴 |
12.00 |
68.00 |
|
10 |
Llama-3.3-70B-Instruct |
meta |
4.13 |
66.40 |
|
11 |
Llama-3.3-70B-Instruct-fp8 |
meta |
2.20 |
64.80 |
|
12 |
Hermes-3-Llama-3.1-405B |
NousResearch |
5.80 |
64.70 |
|
13 |
Meta-Llama-3.1-405B-Instruct |
Meta |
21.00 |
64.20 |
|
14 |
Llama-3.1-Nemotron-70B-Instruct-fp8 |
nvidia |
2.20 |
63.70 |
|
15 |
Yi-1.5-34B-Chat |
零一万物 |
1.26 |
59.00 |
|
16 |
gemma-2-27b-it |
|
1.26 |
57.10 |
推理与数学计算领域排行榜:
推理与数学计算领域目前囊括6个维度:演绎推理,常识推理,符号推理BBH,算术能力,七八九年级数学,表格问答。
|
排名 |
大模型 |
机构 |
输出价格 |
推理与数学计算 |
|
1 |
qwq-32b(new) |
阿里巴巴 |
6.00 |
94.30 |
|
2 |
DeepSeek-R1 |
深度求索 |
16.00 |
92.70 |
|
3 |
deepseek-chat-v3 |
深度求索 |
8.00 |
92.50 |
|
4 |
DeepSeek-R1-Distill-Qwen-32B |
深度求索 |
1.26 |
90.10 |
|
5 |
qwen2.5-72b-instruct |
阿里巴巴 |
12.00 |
89.30 |
|
6 |
DeepSeek-R1-Distill-Llama-70B |
深度求索 |
4.13 |
88.80 |
|
7 |
qwq-32b-preview |
阿里巴巴 |
7.00 |
87.40 |
|
8 |
Llama-3.3-70B-Instruct |
meta |
4.13 |
87.40 |
|
9 |
qwen2.5-math-72b-instruct |
阿里巴巴 |
12.00 |
87.00 |
|
10 |
Llama-3.3-70B-Instruct-fp8 |
meta |
2.20 |
86.60 |
|
11 |
Hermes-3-Llama-3.1-405B |
NousResearch |
5.80 |
85.60 |
|
12 |
Meta-Llama-3.1-405B-Instruct |
Meta |
21.00 |
85.00 |
|
13 |
qwen2.5-32b-instruct |
阿里巴巴 |
7.00 |
84.20 |
|
14 |
Llama-3.1-Nemotron-70B-Instruct-fp8 |
nvidia |
2.20 |
81.30 |
|
15 |
Yi-1.5-34B-Chat |
零一万物 |
1.26 |
75.30 |
|
16 |
gemma-2-27b-it |
|
1.26 |
73.40 |
语言与指令遵从领域排行榜:
语言与指令遵从领域目前囊括10个维度:成语理解,情感分析,分类能力,信息抽取,阅读理解,C3中文阅读理解,代词理解CLUEWSC,诗词匹配CCPM,中文指令遵从。
|
排名 |
大模型 |
机构 |
输出价格 |
语言与指令遵从 |
|
1 |
DeepSeek-R1 |
深度求索 |
16.00 |
91.20 |
|
2 |
qwq-32b(new) |
阿里巴巴 |
6.00 |
90.90 |
|
3 |
qwen2.5-72b-instruct |
阿里巴巴 |
12.00 |
88.00 |
|
4 |
DeepSeek-R1-Distill-Qwen-32B |
深度求索 |
1.26 |
87.70 |
|
5 |
qwen2.5-32b-instruct |
阿里巴巴 |
7.00 |
87.60 |
|
6 |
deepseek-chat-v3 |
深度求索 |
8.00 |
86.60 |
|
7 |
Llama-3.1-Nemotron-70B-Instruct-fp8 |
nvidia |
2.20 |
85.50 |
|
8 |
Llama-3.3-70B-Instruct |
meta |
4.13 |
85.40 |
|
9 |
Hermes-3-Llama-3.1-405B |
NousResearch |
5.80 |
85.40 |
|
10 |
Llama-3.3-70B-Instruct-fp8 |
meta |
2.20 |
85.10 |
|
11 |
DeepSeek-R1-Distill-Llama-70B |
深度求索 |
4.13 |
85.00 |
|
12 |
qwq-32b-preview |
阿里巴巴 |
7.00 |
84.80 |
|
13 |
Meta-Llama-3.1-405B-Instruct |
Meta |
21.00 |
84.20 |
|
14 |
gemma-2-27b-it |
|
1.26 |
83.80 |
|
15 |
Yi-1.5-34B-Chat |
零一万物 |
1.26 |
83.10 |
|
16 |
qwen2.5-math-72b-instruct |
阿里巴巴 |
12.00 |
80.30 |
完整评测结果详见:https://github.com/jeinlee1991/chinese-llm-benchmark
往期文章
关于大模型评测EasyLLM
-
首创——行业首创百万级AI大模型错题本
-
最全——全球最全大模型产品评测平台,已囊括203个大模型
-
最新——月更各个大模型各项能力指标评测,输出排行榜
-
最方便——无需注册/梯子,国内外各个大模型可一键评测
-
结果可见——所有大模型评测的方法、题集、过程、得分结果,可见可追溯!
大模型评测EasyLLM目前已囊括203个大模型,覆盖chatgpt、gpt-4o、o3-mini、谷歌gemini、Claude3.5、智谱GLM-Zero、文心一言、qwen-max、百川、讯飞星火、商汤senseChat、minimax等商用模型, 以及DeepSeek-R1、deepseek-v3、qwen2.5、llama3.3、phi-4、glm4、书生internLM2.5等开源大模型。不仅提供能力评分排行榜,也提供所有模型的原始输出结果,以及各个大模型不同维度、不同细分领域的评测错题本!
完整评测题集及结果详见:https://github.com/jeinlee1991/chinese-llm-benchmark

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)