参考:Qwen3-VL源码解读-创新点速览

前置:Qwen2.5源码解读

2.5 和 3 中类对比速览
在这里插入图片描述

创新点一:采用交错式位置编码

由Qwen2.5的 TTT…HHH…WWW 编码方式变成THWTHWTHW…的编码方式
在这里插入图片描述

创新点二:采用deepstack分层融合视觉特征

Qwen3-VL(左边) 和Qwen2.5(右侧)代码对比, 可以看到多了红框中的 deepstack部分的处理

1 . 获取deepstack_feature

在这里插入图片描述

进入函数 get_image_features中,在视觉模型中获取存指定层的视觉feature在这里插入图片描述

在这里插入图片描述

其中 self.deepstack_merger_list是 Qwen3VLVisionPatchMerger类, 具体代码如下
在这里插入图片描述

在这里插入图片描述

2. deepstack_feature注入到LLM中

首先将 图片和视频的embed拼接起来, 然后传到 大预言模型中
在这里插入图片描述

具体代码实现
在这里插入图片描述

创新点三:T维度采用文本时间戳

在这里插入图片描述

在这里插入图片描述

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐