Qwen3-4B-Thinking-2507-FP8：轻量级大模型推理能力再突破，256K超长上下文助力复杂任务处理

在过去三个月中，研发团队持续深耕Qwen3-4B模型的**思维推理能力**，全面提升其逻辑分析的**质量与深度**。今日正式发布的**Qwen3-4B-Thinking-2507-FP8**版本，带来以下关键增强：- **推理任务性能跃升**：在逻辑推理、数学运算、科学分析、代码编写及高难度学术基准测试中表现显著提升，部分指标已接近专业领域人类专家水平。- **通用能力全面强化**：指令遵循

董向越

1147人浏览 · 2025-11-21 02:52:17

董向越 · 2025-11-21 02:52:17 发布

Qwen3-4B-Thinking-2507-FP8：轻量级大模型推理能力再突破，256K超长上下文助力复杂任务处理

【免费下载链接】Qwen3-4B-Thinking-2507-FP8 项目地址: https://ai.gitcode.com/hf_mirrors/Qwen/Qwen3-4B-Thinking-2507-FP8

核心升级亮点

在过去三个月中，研发团队持续深耕Qwen3-4B模型的思维推理能力，全面提升其逻辑分析的质量与深度。今日正式发布的Qwen3-4B-Thinking-2507-FP8版本，带来以下关键增强：

推理任务性能跃升：在逻辑推理、数学运算、科学分析、代码编写及高难度学术基准测试中表现显著提升，部分指标已接近专业领域人类专家水平。
通用能力全面强化：指令遵循精度、工具调用效率、文本生成流畅度及人类偏好对齐度均实现跨维度优化。
256K超长上下文理解深化：原生支持262,144 tokens的上下文窗口，复杂文档处理与多轮对话连贯性大幅提升。

重要提示：该版本显著延长了思维链生成长度，特别推荐用于需要深度逻辑拆解的复杂推理场景，如数学竞赛题求解、多步骤问题规划等任务。

模型架构解析

本仓库发布的Qwen3-4B-Thinking-2507-FP8为量化版本，核心技术参数如下：

模型类型：因果语言模型（Causal Language Models）
训练阶段：预训练与指令微调联合优化
总参数量：40亿（4.0B）
非嵌入层参数量：36亿（3.6B）
网络层数：36层Transformer Block
注意力机制：采用GQA（Grouped Query Attention）架构，查询头（Q）32个，键值头（KV）8个
上下文长度：原生支持262,144 tokens

特别说明：该模型默认启用思维模式，无需额外设置enable_thinking=True参数。聊天模板会自动植入思维触发标记<RichMediaReference>，因此模型输出中仅显示</think>而无需显式开头标记属于正常现象，用户无需手动添加触发符号。

这张图片展示了Qwen3-4B-Instruct系列模型的架构示意图，直观呈现了模型各功能模块的协同关系。作为思维增强版的技术基底，该架构为2507版本的推理能力提升提供了坚实的基础支持，帮助开发者理解模型的技术实现框架。

多维度性能测评

通过与前代模型及同量级产品的对比测试，Qwen3-4B-Thinking-2507在以下关键维度展现显著优势：

评估维度	Qwen3-30B-A3B Thinking	Qwen3-4B Thinking	Qwen3-4B-Thinking-2507
知识掌握能力
MMLU-Pro	78.5	70.4	74.0
MMLU-Redux	89.5	83.7	86.1
GPQA	65.8	55.9	65.8
SuperGPQA	51.8	42.7	47.8
逻辑推理能力
AIME25（数学竞赛）	70.9	65.6	81.3
HMMT25（哈佛-麻省理工数学竞赛）	49.8	42.1	55.5
LiveBench 20241125	74.3	63.6	71.8
代码开发能力
LiveCodeBench v6	57.4	48.4	55.2
CFEval	1940	1671	1852
OJBench	20.7	16.1	17.9
人机对齐能力
IFEval	86.5	81.9	87.4
Arena-Hard v2$	36.3	13.7	34.9
Creative Writing v3	79.1	61.1	75.6
WritingBench	77.0	73.5	83.3
智能体任务能力
BFCL-v3	69.1	65.9	71.2
TAU1-Retail	61.7	33.9	66.1
TAU1-Airline	32.0	32.0	48.0
TAU2-Retail	34.2	38.6	53.5
TAU2-Airline	36.0	28.0	58.0
TAU2-Telecom	22.8	17.5	27.2
多语言处理能力
MultiIF	72.2	66.3	77.3
MMLU-ProX	73.1	61.0	64.2
INCLUDE	71.9	61.8	64.4
PolyMATH	46.1	40.0	46.2

数据说明：标黄部分为该版本相对前代模型提升最显著的指标，尤其在数学竞赛推理（AIME25提升15.7分）、智能体任务处理（TAU2-Airline提升30分）及多语言指令遵循（MultiIF提升11分）方面实现突破性进展。

快速上手指南

Qwen3系列模型代码已集成至最新版Hugging Face transformers库，强烈建议使用transformers 4.51.0及以上版本。若使用transformers<4.51.0，将触发以下错误：

KeyError: 'qwen3'

以下代码片段展示了如何加载模型并进行文本生成：

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/Qwen3-4B-Thinking-2507-FP8"

# 加载分词器与模型
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",  # 自动选择最优数据类型
    device_map="auto"   # 自动分配设备（CPU/GPU）
)

# 准备输入数据
prompt = "请简要介绍大语言模型的工作原理。"
messages = [
    {"role": "user", "content": prompt}
]
# 应用聊天模板生成输入文本
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

# 生成文本内容
generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=32768  # 设置最大生成长度
)
# 提取生成结果（排除输入部分）
output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist() 

# 解析思维链与最终输出
try:
    # 通过rindex定位思维标记151668（对应符号`<RichMediaReference>`）
    index = len(output_ids) - output_ids[::-1].index(151668)
except ValueError:
    index = 0  # 未检测到思维标记时的容错处理

thinking_content = tokenizer.decode(output_ids[:index], skip_special_tokens=True).strip("\n")
final_answer = tokenizer.decode(output_ids[index:], skip_special_tokens=True).strip("\n")

print("思维过程:", thinking_content)  # 注意：输出中不包含开头`<RichMediaReference>`标记
print("最终回答:", final_answer)

FP8量化版本优势解析

为平衡性能与资源占用，本版本特别提供FP8量化格式（模型名称以-FP8结尾），采用细粒度128块大小量化技术，量化配置细节可参考config.json中的quantization_config字段。该版本可与主流推理框架无缝兼容，包括：

Hugging Face Transformers
SGLang高效推理引擎
vLLM高性能服务框架

相较于BF16版本，FP8量化模型可减少约50%的显存占用（4B模型显存需求降至约8GB），同时推理速度提升30%-40%，特别适合边缘计算设备及显存受限场景部署。

最佳实践指南

为充分发挥模型性能，建议采用以下配置策略：

1. 采样参数优化

推荐基础配置：Temperature=0.6、TopP=0.95、TopK=20、MinP=0，此组合在创造性与准确性间取得最佳平衡。
重复抑制设置：在支持的框架中，可将presence_penalty设为0-2之间的值以减少重复生成。注意：过高的惩罚值（>1.5）可能导致偶尔的语言混杂现象，并轻微影响任务准确率。

2. 输出长度设置

常规查询：建议设置max_new_tokens=32768（约8万字），满足大多数场景需求。
复杂任务：数学/编程竞赛题、长篇文档分析等场景，推荐设置max_new_tokens=81920（约20万字），为模型提供充足的思维链展开空间。实际测试表明，在AIME数学竞赛题中，增加输出长度可使准确率提升12%-18%。

3. 输出格式标准化

基准测试时建议通过提示词规范输出格式：

数学问题：在提示中加入"请分步推理，并将最终答案放在\boxed{}中。"
选择题：要求模型生成JSON结构："请在answer字段中仅填写选项字母，例如："answer": "C"。"
代码任务：明确指定编程语言类型，如"请使用Python 3.10编写函数，要求包含类型注解和异常处理。"

部署与应用场景

Qwen3-4B-Thinking-2507-FP8凭借其高效的推理能力与优化的资源占用，特别适合以下场景：

教育辅助系统：复杂数学题的分步讲解、编程逻辑分析
智能客服升级：长对话上下文保持、多轮问题追踪
文档智能处理：超长合同解析、学术论文综述生成
边缘计算部署：消费级GPU（如RTX 4090）即可流畅运行，支持本地私有化部署

未来展望

研发团队将持续推进以下技术方向：

推理效率优化：进一步压缩模型体积，目标在保持性能的前提下实现INT4量化版本
多模态能力融合：计划在Q3末发布支持图文联合推理的增强版本
领域知识深化：针对生物医药、金融分析等垂直领域开发专用微调版本

获取最新模型权重与技术文档，请访问GitCode仓库：https://gitcode.com/hf_mirrors/Qwen/Qwen3-4B-Thinking-2507-FP8 。建议通过git clone命令克隆完整仓库，获取包括配置文件、示例代码在内的全部资源。

【免费下载链接】Qwen3-4B-Thinking-2507-FP8 项目地址: https://ai.gitcode.com/hf_mirrors/Qwen/Qwen3-4B-Thinking-2507-FP8

智能体开发者社区

中国智能体开发者社区，聚焦智能体与大模型开发，提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动，促进经验交流与协作，助力开发者快速构建创新智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

智能体开发者社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

智能体开发者社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla