Qwen3 VL源码创新点解读(对比2.5)
2.5 和 3 中类对比。
·
前置:Qwen2.5源码解读
2.5 和 3 中类对比速览
创新点一:采用交错式位置编码
由Qwen2.5的 TTT…HHH…WWW 编码方式变成THWTHWTHW…的编码方式
创新点二:采用deepstack分层融合视觉特征
Qwen3-VL(左边) 和Qwen2.5(右侧)代码对比, 可以看到多了红框中的 deepstack部分的处理
1 . 获取deepstack_feature

进入函数 get_image_features中,在视觉模型中获取存指定层的视觉feature

其中 self.deepstack_merger_list是 Qwen3VLVisionPatchMerger类, 具体代码如下

2. deepstack_feature注入到LLM中
首先将 图片和视频的embed拼接起来, 然后传到 大预言模型中
具体代码实现
创新点三:T维度采用文本时间戳


火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)