全面超越,灵活适配,重新定义开源大模型天花板。


近日,Qwen团队正式开源了全新一代混合推理大模型 —— Qwen3 系列。 无论是性能、效率,还是多场景适配能力,Qwen3 都展现出令人惊艳的进步,成为开源圈当之无愧的焦点。

今天,我们带你快速梳理:

  • Qwen3 的性能亮点

  • 新特性「思考模式」详解

  • 如何快速上手体验


一、性能卓越,小而强大

作为Qwen系列的新一代混合推理模型,Qwen3在多个权威评测中取得了极具竞争力的成绩:

📈 GPQA、AIME24/25、LiveCodeBench —— 多项榜单表现亮眼 🧠 逻辑推理、代码生成、数学计算 —— 全面跃升

在相同计算资源下,Qwen3用更小的规模,超越了上一代更大体量的Dense模型,真正做到了:

“小而强大”。

这背后,离不开Qwen3核心的创新技术:

  • MOE混合专家架构:在保证模型效果媲美超大模型的同时,大幅提升推理效率;

  • 超大预训练数据:使用了高达36万亿tokens规模的数据;

  • 多轮强化学习与精细优化:全面加强推理、指令遵循、工具调用与多语言能力。

其中,旗舰版本 Qwen3-235B-A22B,刷新了开源模型智能水平新高,同时显存占用仅为性能相近模型的三分之一

无论是数学推理、代码生成,还是复杂逻辑分析,Qwen3均展现出卓越实力,稳居全球开源模型第一梯队。

八大模型一览:

混合专家模型特点:

Qwen3-235B-A22B是第三代Qwen系列中的旗舰语言模型。它采用了动态思维预算机制,能够实现自适应的性能扩展和成本效率。在思考模式下,它在复杂推理、指令跟随、数学、编码、角色扮演、创意写作等方面表现出色。而在非思考模式下,它能以最小的延迟和令牌成本高效处理常见任务。

最大上下文长度: 131,072 tokens

最大摘要生成长度: 8,192 tokens

最大思考生成长度: 38,912 tokens

模态: 文本

Qwen3-30B-A3B是第三代Qwen系列中紧凑且高性能的混合专家(MoE)模型。它引入了动态思维预算机制,能够实现自适应的性能扩展和成本效益。该模型可胜任常见的语言任务,如摘要生成、翻译、改写、阅读理解等。

最大上下文长度: 131,072 tokens

最大摘要生成长度: 8,192 tokens

最大思考生成长度: 38,912 tokens

模态: 文本


二、思考与非思考模式,自由切换

Qwen3另一个极具创新意义的功能,是引入了:

思考模式(Thinking Mode)

根据不同任务的复杂度,Qwen3可以智能切换「思考」与「非思考」两种状态:

思考模式(enable_thinking=True)

  • 在生成回复前进行多步推理与深度逻辑分析

  • 输出包含 <think>...</think> 的详细思考过程

  • 适合数学题、代码编写、复杂推理等场景

非思考模式(enable_thinking=False)

  • 追求响应速度,快速给出答案

  • 跳过多步推理,适用于日常对话、简易问答

  • 响应更快,体验更流畅

动态软开关支持:

你可以通过指令灵活控制模型思考行为:

  • /think 开启深度推理

  • /no_think 关闭深度推理

👉 下面是一个简单的交互示例(代码片段):

# 初始化模型 chatbot = QwenChatbot() # 默认开启思考模式 user_input = "How many r's in strawberries?" response = chatbot.generate_response(user_input) # 禁用思考模式 user_input = "Then, how many r's in blueberries? /no_think" response = chatbot.generate_response(user_input) # 重新启用思考模式 user_input = "Really? /think" response = chatbot.generate_response(user_input)


三、多种框架轻松上手

无论是 Hugging Face transformers、ModelScope,还是本地推理部署,Qwen3 都已经适配,且极易使用。

Hugging Face 示例

from transformers import AutoModelForCausalLM, AutoTokenizer model_name = "Qwen/Qwen3-30B-A3B" tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto") # 准备输入,启用思考模式 prompt = "Give me a short introduction to large language model." messages = [{"role": "user", "content": prompt}] text = tokenizer.apply_chat_template(messages, tokenize=False, enable_thinking=True) # 推理 inputs = tokenizer([text], return_tensors="pt").to(model.device) outputs = model.generate(**inputs)

快速部署到API服务器

  • 使用 SGLang >= 0.4.6.post1

  • 使用 vLLM >= 0.8.4

一行命令,即可快速开启兼容OpenAI API的推理服务。

示例:

python -m sglang.launch_server --model-path Qwen/Qwen3-30B-A3B --reasoning-parser qwen3


四、Agent示例:多工具智能体应用

Qwen3不仅是聊天,更是强大的Agent平台

你可以使用 Qwen-Agent 模块,轻松调用外部工具,如网页抓取、代码解释、时间查询等,实现复杂任务自动化。

示例代码(部分)

from qwen_agent.agents import Assistant bot = Assistant( llm={'model': 'Qwen3-30B-A3B', 'model_server': 'http://localhost:8000/v1'}, function_list=['code_interpreter', 'time'] ) messages = [{'role': 'user', 'content': 'Introduce Qwen3'}] for response in bot.run(messages=messages):print(response)


五、快速体验Qwen3

Huggingface Qwen3-235B-A22B魔搭社区 ModelScopeQwen Chat官网体验 ✅ 阿里云百炼(即将上线,提供100万tokens免费体验)

有两个站点可以体验,一个侧重提供稳定版服务,一个侧重最新版模型体验


官网主站体验:https://www.tongyi.com/qianwen/

指令中心:提供多个指令模版,快速使用

案例1:MBTI性格测试智能体-智能体模式

生成黏土世界风格卡片

案例2:答案之书制作——使用代码模式

案例3:赛博木鱼制作——使用代码模式

案例4:ppt制作——使用ppt模式

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐