突破分割边界！多模态大模型X-SAM：从 “分割万物” 到 “任意分割”，实现全场景图像分割统一

阿_旭

1165人浏览 · 2025-11-15 17:06:48

阿_旭 · 2025-11-15 17:06:48 发布

《博主简介》

小伙伴们好，我是阿旭。
专注于计算机视觉领域，包括目标检测、图像分类、图像分割和目标跟踪等项目开发，提供模型对比实验、答疑辅导等。

《------往期经典推荐------》

一、AI应用软件开发实战专栏【链接】

项目名称	项目名称
1.【人脸识别与管理系统开发】	2.【车牌识别与自动收费管理系统开发】
3.【手势识别系统开发】	4.【人脸面部活体检测系统开发】
5.【图片风格快速迁移软件开发】	6.【人脸表表情识别系统】
7.【YOLOv8多目标识别与自动标注软件开发】	8.【基于深度学习的行人跌倒检测系统】
9.【基于深度学习的PCB板缺陷检测系统】	10.【基于深度学习的生活垃圾分类目标检测系统】
11.【基于深度学习的安全帽目标检测系统】	12.【基于深度学习的120种犬类检测与识别系统】
13.【基于深度学习的路面坑洞检测系统】	14.【基于深度学习的火焰烟雾检测系统】
15.【基于深度学习的钢材表面缺陷检测系统】	16.【基于深度学习的舰船目标分类检测系统】
17.【基于深度学习的西红柿成熟度检测系统】	18.【基于深度学习的血细胞检测与计数系统】
19.【基于深度学习的吸烟/抽烟行为检测系统】	20.【基于深度学习的水稻害虫检测与识别系统】
21.【基于深度学习的高精度车辆行人检测与计数系统】	22.【基于深度学习的路面标志线检测与识别系统】
23.【基于深度学习的智能小麦害虫检测识别系统】	24.【基于深度学习的智能玉米害虫检测识别系统】
25.【基于深度学习的200种鸟类智能检测与识别系统】	26.【基于深度学习的45种交通标志智能检测与识别系统】
27.【基于深度学习的人脸面部表情识别系统】	28.【基于深度学习的苹果叶片病害智能诊断系统】
29.【基于深度学习的智能肺炎诊断系统】	30.【基于深度学习的葡萄簇目标检测系统】
31.【基于深度学习的100种中草药智能识别系统】	32.【基于深度学习的102种花卉智能识别系统】
33.【基于深度学习的100种蝴蝶智能识别系统】	34.【基于深度学习的水稻叶片病害智能诊断系统】
35.【基于与ByteTrack的车辆行人多目标检测与追踪系统】	36.【基于深度学习的智能草莓病害检测与分割系统】
37.【基于深度学习的复杂场景下船舶目标检测系统】	38.【基于深度学习的农作物幼苗与杂草检测系统】
39.【基于深度学习的智能道路裂缝检测与分析系统】	40.【基于深度学习的葡萄病害智能诊断与防治系统】
41.【基于深度学习的遥感地理空间物体检测系统】	42.【基于深度学习的无人机视角地面物体检测系统】
43.【基于深度学习的木薯病害智能诊断与防治系统】	44.【基于深度学习的野外火焰烟雾检测系统】
45.【基于深度学习的脑肿瘤智能检测系统】	46.【基于深度学习的玉米叶片病害智能诊断与防治系统】
47.【基于深度学习的橙子病害智能诊断与防治系统】	48.【基于深度学习的车辆检测追踪与流量计数系统】
49.【基于深度学习的行人检测追踪与双向流量计数系统】	50.【基于深度学习的反光衣检测与预警系统】
51.【基于深度学习的危险区域人员闯入检测与报警系统】	52.【基于深度学习的高密度人脸智能检测与统计系统】
53.【基于深度学习的CT扫描图像肾结石智能检测系统】	54.【基于深度学习的水果智能检测系统】
55.【基于深度学习的水果质量好坏智能检测系统】	56.【基于深度学习的蔬菜目标检测与识别系统】
57.【基于深度学习的非机动车驾驶员头盔检测系统】	58.【太基于深度学习的阳能电池板检测与分析系统】
59.【基于深度学习的工业螺栓螺母检测】	60.【基于深度学习的金属焊缝缺陷检测系统】
61.【基于深度学习的链条缺陷检测与识别系统】	62.【基于深度学习的交通信号灯检测识别】
63.【基于深度学习的草莓成熟度检测与识别系统】	64.【基于深度学习的水下海生物检测识别系统】
65.【基于深度学习的道路交通事故检测识别系统】	66.【基于深度学习的安检X光危险品检测与识别系统】
67.【基于深度学习的农作物类别检测与识别系统】	68.【基于深度学习的危险驾驶行为检测识别系统】
69.【基于深度学习的维修工具检测识别系统】	70.【基于深度学习的维修工具检测识别系统】
71.【基于深度学习的建筑墙面损伤检测系统】	72.【基于深度学习的煤矿传送带异物检测系统】
73.【基于深度学习的老鼠智能检测系统】	74.【基于深度学习的水面垃圾智能检测识别系统】
75.【基于深度学习的遥感视角船只智能检测系统】	76.【基于深度学习的胃肠道息肉智能检测分割与诊断系统】
77.【基于深度学习的心脏超声图像间隔壁检测分割与分析系统】	78.【基于深度学习的心脏超声图像间隔壁检测分割与分析系统】
79.【基于深度学习的果园苹果检测与计数系统】	80.【基于深度学习的半导体芯片缺陷检测系统】
81.【基于深度学习的糖尿病视网膜病变检测与诊断系统】	82.【基于深度学习的运动鞋品牌检测与识别系统】
83.【基于深度学习的苹果叶片病害检测识别系统】	84.【基于深度学习的医学X光骨折检测与语音提示系统】
85.【基于深度学习的遥感视角农田检测与分割系统】	86.【基于深度学习的运动品牌LOGO检测与识别系统】
87.【基于深度学习的电瓶车进电梯检测与语音提示系统】	88.【基于深度学习的遥感视角地面房屋建筑检测分割与分析系统】
89.【基于深度学习的医学CT图像肺结节智能检测与语音提示系统】	90.【基于深度学习的舌苔舌象检测识别与诊断系统】
91.【基于深度学习的蛀牙智能检测与语音提示系统】	92.【基于深度学习的皮肤癌智能检测与语音提示系统】
93.【基于深度学习的工业压力表智能检测与读数系统】	94.【基于深度学习的CT扫描图像肝脏肿瘤智能检测与分析系统】
95.【基于深度学习的CT扫描图像脑肿瘤智能检测与分析系统】	96.【基于深度学习的甲状腺结节智能检测分割与诊断系统】

二、机器学习实战专栏【链接】，已更新31期，欢迎关注，持续更新中~~
三、深度学习【Pytorch】专栏【链接】
四、【Stable Diffusion绘画系列】专栏【链接】
五、YOLOv8改进专栏【链接】，持续更新中~~
六、YOLO性能对比专栏【链接】，持续更新中~

《------正文------》

一、研究背景

现有模型局限
- 大语言模型（LLMs）：具备强大的通用知识表征能力，但在像素级感知理解上存在固有缺陷，无法直接处理图像分割等需像素级分析的任务。
- 分割任意事物模型（SAM）：虽在视觉提示驱动的图像分割领域有显著进展，但存在多掩码预测能力弱、类别特异性分割表现不足、无法整合所有分割任务于统一架构等问题。
- 现有多模态大语言模型（MLLMs）：多局限于生成文本输出，难以应对图像分割这类需像素级理解的视觉任务，且多数相关研究仍局限于特定任务，缺乏通用性。
研究目标：构建一个统一的多模态大语言模型框架X-SAM，突破现有模型限制，将分割范式从“分割任意事物”拓展到“任意分割”，实现对多种图像分割任务的统一处理。

二、核心创新点

在这里插入图片描述

统一分割框架：提出首个能整合所有图像分割任务的多模态大语言模型架构，将通用分割、指代分割、开放词汇分割等多种任务转化为标准化分割格式，支持文本查询与视觉查询两种输入类型。
新分割任务：视觉接地（VGD）分割：通过交互式视觉提示（如点、涂鸦、框、掩码）分割图像中所有实例对象，为MLLMs引入视觉接地模态，增强其像素级可解释性，且支持单图像与跨图像场景。
多阶段统一训练策略：设计三阶段训练流程，解决多源数据训练适配问题，具体包括：
- 分割器微调阶段：在COCO-Panoptic数据集上训练分割器，优化分割解码器以实现单次前向传播分割所有对象，损失函数为分类损失、掩码损失与骰子损失之和。
- 对齐预训练阶段：在LLaVA-558K数据集上训练双投影器，使视觉特征与LLM的文本嵌入对齐，采用自回归损失函数。
- 混合微调阶段：在混合数据集（含图像对话与多种分割数据集）上进行端到端训练，对话任务用自回归损失，分割任务结合自回归损失与分割损失。
双编码器与双投影器设计
- 双编码器：图像编码器（采用SigLIP2-so400m）提取全局图像特征，助力图像理解；分割编码器（采用SAM-L）提取细粒度特征，支撑精准分割。
- 双投影器：通过MLP投影器将图像特征与处理后的分割特征（经像素洗牌操作降维）映射到语言嵌入空间，再与文本嵌入拼接输入LLM。

三、模型架构

在这里插入图片描述

X-SAM整体架构包含五大核心模块，各模块协同实现多模态输入处理与统一分割输出，具体结构如下：

双编码器
- 图像编码器：采用SigLIP2-so400m，提取全局图像特征(Z_v)，用于整体图像理解。
- 分割编码器：采用SAM-L，提取细粒度图像特征(Z_s)，为精准分割提供细节支撑。
双投影器
- 对分割编码器输出的大尺寸特征，先通过像素洗牌操作降维，再经MLP投影器(w_s)映射到语言嵌入空间(H_s)。
- 图像编码器特征直接经MLP投影器(w_i)映射到语言嵌入空间(H_v)，最终拼接(H_v)、(H_s)与文本嵌入输入LLM。
分割连接器：通过像素洗牌操作实现特征的尺度转换，将分割编码器的单尺度（1/16）特征转化为多尺度（1/8、1/16、1/32）特征，为分割解码器提供丰富的尺度信息。
分割解码器：替换SAM原解码器，借鉴Mask2Former设计，结合LLM输出的令牌嵌入、多尺度分割特征与掩码查询令牌，预测掩码及类别概率，同时引入潜在背景嵌入统一处理所有分割任务的“忽略”类别。
大语言模型（LLM）：采用Phi-3-mini-4k-instruct，负责处理文本指令与视觉特征的融合理解，生成语言响应并输出令牌触发分割结果。

四、实验结果

实验设置
- 数据集：涵盖分割器微调（COCO-Panoptic）、对齐预训练（LLaVA-558K）、混合微调（LLaVA-1.5、COCO-Panoptic、COCO-VGD等）三大类，共涉及超20个分割数据集，其中COCO-VGD为新增VGD分割数据集。
- 评估指标：通用分割与开放词汇分割用PQ、mIoU、mAP；指代分割与推理分割用cIoU、gIoU；GCG分割用METEOR、CIDEr、AP50、mIoU；VGD分割用AP、AP50等。
- 实现细节：基于XTuner代码库，使用16张A100 GPU训练，三阶段训练的 batch size、学习率、训练轮次等参数分别优化（如分割器微调batch size=64，学习率1e-5~1e-4，共36轮）。
核心性能表现：X-SAM在7类分割任务中均实现当前最优（SOTA）性能，部分关键结果如下：
- 指代分割：在RefCOCO、RefCOCO+、RefCOCOg验证集上，分别比PSALM高1.5%、5.1%、10.0% cIoU；比Sa2VA-8B（更大模型）分别高3.5%、1.8%、5.1% cIoU。
- GCG分割：Val集上METEOR 15.4、CIDEr 46.3、AP50 33.2、mIoU 69.4，比GLaMM高0.2% METEOR、3.2% CIDEr，比OMG-LLaVA高3.3% AP、3.9% mIoU。
- VGD分割：在点、涂鸦、框、掩码四种视觉提示下，AP分别达47.9、48.7、49.5、49.7，远超PSALM（最高仅5.8 AP50）。
- 开放词汇分割：A150-OV数据集上PQ 20.9、AP 16.2、mIoU 28.8，优于ODISE（PQ 22.6但AP 14.4）与PSALM（PQ 13.7）。
消融实验验证
- 混合微调：使A150-OV的AP提升6.0%、Reason-Val的gIoU提升8.9%，证明其对跨任务泛化能力的增强作用。
- 双编码器：采用SAM分割编码器时，GCG-Val的mIoU提升4.6%、COCO-VGD的AP提升7.2%，优于Swin编码器。
- 多阶段训练：加入分割器微调（S1）使COCO-Pan的PQ提升9.3%，加入对齐预训练（S2）使对话任务准确率提升2.1%。
- 数据集平衡重采样：当超参数t=0.1时，推理分割gIoU从44.1%提升至56.6%，整体性能最优。

五、局限性与未来工作

局限性
- 分割数据集与对话数据集的联合训练会对部分分割任务（如COCO-Pan）性能产生轻微负面影响（PQ下降0.8%），需优化数据集混合策略。
- 模型在部分任务（如推理分割的cIoU）上未达绝对最优，统一模型的任务适配性仍需提升。
未来方向
- 整合SAM2模型，将X-SAM的应用场景从图像分割拓展到视频分割。
- 把VGD分割任务延伸至视频领域，引入视觉接地的时序信息，开发视频级视觉接地分割任务。

六、其他

代码开源：https://github.com/wanghao9610/X-SAM
论文地址：https://arxiv.org/abs/2508.04655
模型参数：总参数量约5B，兼顾性能与部署效率。
适用场景：涵盖通用分割、指代分割、推理分割、GCG分割、交互式分割、VGD分割等，可应用于图像编辑、视觉问答、场景理解等计算机视觉领域。

在这里插入图片描述

好了，这篇文章就介绍到这里，喜欢的小伙伴感谢给点个赞和关注，更多精彩内容持续更新~~
关于本篇文章大家有任何建议或意见，欢迎在评论区留言交流！

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

Chess用户界面设计：Tailwind CSS样式系统和组件库

GitHub推荐项目精选中的ch/chess是一个类似chess.com的多人在线象棋平台，它采用现代化的前端技术栈构建，尤其在用户界面设计上通过Tailwind CSS样式系统和组件库实现了优雅且功能丰富的交互体验。本文将深入探讨该项目如何利用Tailwind CSS打造一致的设计语言和高效的组件系统，为象棋爱好者提供沉浸式的游戏界面。## 🎨 Tailwind CSS样式系统：构建统一视

火山引擎 ADG 社区

终极指南：GPT-Engineer如何通过AI自动发现代码问题并提升质量

GPT-Engineer是一款强大的AI驱动代码工具，它能帮助开发者自动检测潜在代码问题、优化代码质量，让编程效率提升3倍以上。无论是新手还是资深开发者，都能通过这款工具轻松发现代码中的隐藏缺陷，减少调试时间，释放更多精力在创造性工作上。## 一键发现代码问题：GPT-Engineer的AI审查魔力GPT-Engineer的核心能力在于其内置的智能代码分析系统。通过集成Python代码格式

火山引擎 ADG 社区

SatDump中的纠错编码技术：从RS码到Turbo码的完整实现指南

在卫星数据传输过程中，信号往往会受到各种干扰，导致数据错误。SatDump作为一款通用卫星数据处理软件，集成了多种先进的纠错编码技术，确保从卫星接收到的数据能够准确解码。本文将深入解析SatDump中从Reed-Solomon（RS）码到Turbo码的实现细节，帮助读者理解这些技术如何保障卫星通信的可靠性。## 为什么纠错编码对卫星数据至关重要？卫星与地面站之间的通信链路面临着空间辐射、大