Qwen3-VL震撼发布:新一代多模态模型重构视觉语言交互范式

【免费下载链接】Qwen3-VL-4B-Thinking 【免费下载链接】Qwen3-VL-4B-Thinking 项目地址: https://ai.gitcode.com/hf_mirrors/Qwen/Qwen3-VL-4B-Thinking

Qwen3-VL作为Qwen系列迄今为止最强大的视觉语言模型,实现了全方位能力升级。该模型在文本理解与生成、视觉感知与推理、上下文长度扩展、空间与视频动态理解以及智能体交互能力等核心维度均取得突破性进展。提供从边缘端到云端的Dense与MoE两种架构选择,并配备Instruct和推理增强的Thinking版本,满足灵活按需部署需求。

核心能力增强方面,视觉智能体功能可操作PC/移动设备图形界面,实现元素识别、功能理解、工具调用与任务完成闭环。视觉编码能力大幅提升,能直接从图像/视频生成Draw.io图表及HTML/CSS/JS代码。空间感知技术实现物体位置、视角与遮挡关系判断,提供更强的2D定位能力并支持3D定位,为空间推理和具身智能奠定基础。原生支持256K上下文长度(可扩展至1M),实现书籍级文档处理和小时级视频理解,具备完整内容召回与秒级时间戳索引能力。多模态推理在STEM/数学领域表现卓越,可完成因果分析并提供基于证据的逻辑答案。视觉识别系统通过更广泛高质量的预训练实现"万物识别",覆盖名人、动漫、商品、地标、动植物等多类别。OCR功能升级至支持32种语言(原支持19种),在低光照、模糊、倾斜场景下表现稳定,对生僻/古文字和专业术语识别准确率提升,长文档结构解析能力增强。文本理解能力达到纯语言模型水平,实现无缝的文本-视觉融合与无损统一理解。

Qwen3-VL模型架构示意图 如上图所示,该架构示意图清晰展示了Qwen3-VL的核心组件构成,包括Vision Encoder、Qwen3 LM Dense/MoE Decoder等关键模块,以及文本和视觉输入(图片、视频)的完整处理流程。这一架构设计充分体现了模型的多模态融合能力,为开发者理解模型工作原理提供了直观参考,有助于技术人员快速掌握模型应用要点。

模型架构创新方面,Interleaved-MRoPE技术通过稳健的位置编码实现时间、宽度和高度维度的全频率分配,显著增强长时视频推理能力。DeepStack技术融合多级ViT特征,有效捕捉细粒度细节并提升图文对齐精度。文本-时间戳对齐机制突破传统T-RoPE限制,实现基于时间戳的精确事件定位,大幅增强视频时序建模能力。

Qwen3-VL模型的架构示意图 图中详细展示了Qwen3-VL的模块化设计,特别是视觉编码器与Qwen3语言模型解码器的协同工作流程。这种架构设计是实现多模态能力跃升的关键,为开发者提供了清晰的技术路线图,有助于理解模型如何处理复杂的跨模态任务。

本文档对应Qwen3-VL-4B-Thinking版本的权重仓库。模型性能评估涵盖多模态表现和纯文本性能两大维度,全面验证模型综合能力。

快速入门指南提供基于🤖 ModelScope和🤗 Transformers的使用示例。Qwen3-VL代码已集成至最新版Hugging Face Transformers,建议通过源码安装:pip install git+https://gitcode.com/hf_mirrors/Qwen/Qwen3-VL-4B-Thinking # pip install transformers==4.57.0 # 当前V4.57.0版本尚未发布

使用🤗 Transformers进行对话的代码示例: from transformers import Qwen3VLForConditionalGeneration, AutoProcessor

默认:在可用设备上加载模型

model = Qwen3VLForConditionalGeneration.from_pretrained("Qwen/Qwen3-VL-4B-Thinking", dtype="auto", device_map="auto")

推荐启用flash_attention_2以获得更好的加速效果和内存节省,特别是在多图像和视频场景中

model = Qwen3VLForConditionalGeneration.from_pretrained(

"Qwen/Qwen3-VL-4B-Thinking",

dtype=torch.bfloat16,

attn_implementation="flash_attention_2",

device_map="auto",

)

processor = AutoProcessor.from_pretrained("Qwen/Qwen3-VL-4B-Thinking")

messages = [ { "role": "user", "content": [ { "type": "image", "image": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/demo.jpeg", }, { "type": "text", "text": "Describe this image." }, ], } ]

推理准备

inputs = processor.apply_chat_template( messages, tokenize=True, add_generation_prompt=True, return_dict=True, return_tensors="pt" ) inputs = inputs.to(model.device)

推理:生成输出

generated_ids = model.generate(**inputs, max_new_tokens=128) generated_ids_trimmed = [ out_ids[len(in_ids) :] for in_ids, out_ids in zip(inputs.input_ids, generated_ids) ] output_text = processor.batch_decode( generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False ) print(output_text)

生成超参数设置: 视觉语言任务: export greedy='false' export top_p=0.95 export top_k=20 export repetition_penalty=1.0 export presence_penalty=0.0 export temperature=1.0 export out_seq_length=40960

文本任务: export greedy='false' export top_p=0.95 export top_k=20 export repetition_penalty=1.0 export presence_penalty=1.5 export temperature=1.0 export out_seq_length=32768 (对于aime、lcb和gpqa任务,建议设置为81920)

引用说明:如使用本研究成果,请引用相关技术报告: @misc{qwen3technicalreport, title={Qwen3 Technical Report}, author={Qwen Team}, year={2025}, eprint={2505.09388}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2505.09388}, }

@article{Qwen2.5-VL, title={Qwen2.5-VL Technical Report}, author={Bai, Shuai and Chen, Keqin and Liu, Xuejing and Wang, Jialin and Ge, Wenbin and Song, Sibo and Dang, Kai and Wang, Peng and Wang, Shijie and Tang, Jun and Zhong, Humen and Zhu, Yuanzhi and Yang, Mingkun and Li, Zhaohai and Wan, Jianqiang and Wang, Pengfei and Ding, Wei and Fu, Zheren and Xu, Yiheng and Ye, Jiabo and Zhang, Xi and Xie, Tianbao and Cheng, Zesen and Zhang, Hang and Yang, Zhibo and Xu, Haiyang and Lin, Junyang}, journal={arXiv preprint arXiv:2502.13923}, year={2025} }

@article{Qwen2VL, title={Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution}, author={Wang, Peng and Bai, Shuai and Tan, Sinan and Wang, Shijie and Fan, Zhihao and Bai, Jinze and Chen, Keqin and Liu, Xuejing and Wang, Jialin and Ge, Wenbin and Fan, Yang and Dang, Kai and Du, Mengfei and Ren, Xuancheng and Men, Rui and Liu, Dayiheng and Zhou, Chang and Zhou, Jingren and Lin, Junyang}, journal={arXiv preprint arXiv:2409.12191}, year={2024} }

@article{Qwen-VL, title={Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond}, author={Bai, Jinze and Bai, Shuai and Yang, Shusheng and Wang, Shijie and Tan, Sinan and Wang, Peng and Lin, Junyang and Zhou, Chang and Zhou, Jingren}, journal={arXiv preprint arXiv:2308.12966}, year={2023} }

Qwen3-VL的发布标志着多模态人工智能进入新阶段,其全方位的能力提升不仅拓展了视觉语言模型的应用边界,更为智能交互、内容创作、教育培训等领域带来革命性可能。随着模型的开源与普及,预计将催生大量创新应用,推动人机协作方式的深度变革。未来,随着上下文长度的进一步扩展和多模态理解能力的持续深化,Qwen3-VL有望成为连接数字世界与物理世界的关键智能接口。

【免费下载链接】Qwen3-VL-4B-Thinking 【免费下载链接】Qwen3-VL-4B-Thinking 项目地址: https://ai.gitcode.com/hf_mirrors/Qwen/Qwen3-VL-4B-Thinking

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐