《博主简介》

小伙伴们好,我是阿旭。
专注于计算机视觉领域,包括目标检测、图像分类、图像分割和目标跟踪等项目开发,提供模型对比实验、答疑辅导等。

《------往期经典推荐------》

一、AI应用软件开发实战专栏【链接】

项目名称 项目名称
1.【人脸识别与管理系统开发 2.【车牌识别与自动收费管理系统开发
3.【手势识别系统开发 4.【人脸面部活体检测系统开发
5.【图片风格快速迁移软件开发 6.【人脸表表情识别系统
7.【YOLOv8多目标识别与自动标注软件开发 8.【基于深度学习的行人跌倒检测系统
9.【基于深度学习的PCB板缺陷检测系统 10.【基于深度学习的生活垃圾分类目标检测系统
11.【基于深度学习的安全帽目标检测系统 12.【基于深度学习的120种犬类检测与识别系统
13.【基于深度学习的路面坑洞检测系统 14.【基于深度学习的火焰烟雾检测系统
15.【基于深度学习的钢材表面缺陷检测系统 16.【基于深度学习的舰船目标分类检测系统
17.【基于深度学习的西红柿成熟度检测系统 18.【基于深度学习的血细胞检测与计数系统
19.【基于深度学习的吸烟/抽烟行为检测系统 20.【基于深度学习的水稻害虫检测与识别系统
21.【基于深度学习的高精度车辆行人检测与计数系统 22.【基于深度学习的路面标志线检测与识别系统
23.【基于深度学习的智能小麦害虫检测识别系统 24.【基于深度学习的智能玉米害虫检测识别系统
25.【基于深度学习的200种鸟类智能检测与识别系统 26.【基于深度学习的45种交通标志智能检测与识别系统
27.【基于深度学习的人脸面部表情识别系统 28.【基于深度学习的苹果叶片病害智能诊断系统
29.【基于深度学习的智能肺炎诊断系统 30.【基于深度学习的葡萄簇目标检测系统
31.【基于深度学习的100种中草药智能识别系统 32.【基于深度学习的102种花卉智能识别系统
33.【基于深度学习的100种蝴蝶智能识别系统 34.【基于深度学习的水稻叶片病害智能诊断系统
35.【基于与ByteTrack的车辆行人多目标检测与追踪系统 36.【基于深度学习的智能草莓病害检测与分割系统
37.【基于深度学习的复杂场景下船舶目标检测系统 38.【基于深度学习的农作物幼苗与杂草检测系统
39.【基于深度学习的智能道路裂缝检测与分析系统 40.【基于深度学习的葡萄病害智能诊断与防治系统
41.【基于深度学习的遥感地理空间物体检测系统 42.【基于深度学习的无人机视角地面物体检测系统
43.【基于深度学习的木薯病害智能诊断与防治系统 44.【基于深度学习的野外火焰烟雾检测系统
45.【基于深度学习的脑肿瘤智能检测系统 46.【基于深度学习的玉米叶片病害智能诊断与防治系统
47.【基于深度学习的橙子病害智能诊断与防治系统 48.【基于深度学习的车辆检测追踪与流量计数系统
49.【基于深度学习的行人检测追踪与双向流量计数系统 50.【基于深度学习的反光衣检测与预警系统
51.【基于深度学习的危险区域人员闯入检测与报警系统 52.【基于深度学习的高密度人脸智能检测与统计系统
53.【基于深度学习的CT扫描图像肾结石智能检测系统 54.【基于深度学习的水果智能检测系统
55.【基于深度学习的水果质量好坏智能检测系统 56.【基于深度学习的蔬菜目标检测与识别系统
57.【基于深度学习的非机动车驾驶员头盔检测系统 58.【太基于深度学习的阳能电池板检测与分析系统
59.【基于深度学习的工业螺栓螺母检测 60.【基于深度学习的金属焊缝缺陷检测系统
61.【基于深度学习的链条缺陷检测与识别系统 62.【基于深度学习的交通信号灯检测识别
63.【基于深度学习的草莓成熟度检测与识别系统 64.【基于深度学习的水下海生物检测识别系统
65.【基于深度学习的道路交通事故检测识别系统 66.【基于深度学习的安检X光危险品检测与识别系统
67.【基于深度学习的农作物类别检测与识别系统 68.【基于深度学习的危险驾驶行为检测识别系统
69.【基于深度学习的维修工具检测识别系统 70.【基于深度学习的维修工具检测识别系统
71.【基于深度学习的建筑墙面损伤检测系统 72.【基于深度学习的煤矿传送带异物检测系统
73.【基于深度学习的老鼠智能检测系统 74.【基于深度学习的水面垃圾智能检测识别系统
75.【基于深度学习的遥感视角船只智能检测系统 76.【基于深度学习的胃肠道息肉智能检测分割与诊断系统
77.【基于深度学习的心脏超声图像间隔壁检测分割与分析系统 78.【基于深度学习的心脏超声图像间隔壁检测分割与分析系统
79.【基于深度学习的果园苹果检测与计数系统 80.【基于深度学习的半导体芯片缺陷检测系统
81.【基于深度学习的糖尿病视网膜病变检测与诊断系统 82.【基于深度学习的运动鞋品牌检测与识别系统
83.【基于深度学习的苹果叶片病害检测识别系统 84.【基于深度学习的医学X光骨折检测与语音提示系统
85.【基于深度学习的遥感视角农田检测与分割系统 86.【基于深度学习的运动品牌LOGO检测与识别系统
87.【基于深度学习的电瓶车进电梯检测与语音提示系统 88.【基于深度学习的遥感视角地面房屋建筑检测分割与分析系统
89.【基于深度学习的医学CT图像肺结节智能检测与语音提示系统 90.【基于深度学习的舌苔舌象检测识别与诊断系统
91.【基于深度学习的蛀牙智能检测与语音提示系统 92.【基于深度学习的皮肤癌智能检测与语音提示系统
93.【基于深度学习的工业压力表智能检测与读数系统 94.【基于深度学习的CT扫描图像肝脏肿瘤智能检测与分析系统】
95.【基于深度学习的CT扫描图像脑肿瘤智能检测与分析系统】 96.【基于深度学习的甲状腺结节智能检测分割与诊断系统】

二、机器学习实战专栏【链接】,已更新31期,欢迎关注,持续更新中~~
三、深度学习【Pytorch】专栏【链接】
四、【Stable Diffusion绘画系列】专栏【链接】
五、YOLOv8改进专栏【链接】持续更新中~~
六、YOLO性能对比专栏【链接】,持续更新中~

《------正文------》


在这里插入图片描述

一、研究背景

  1. 现有模型局限
    • 大语言模型(LLMs):具备强大的通用知识表征能力,但在像素级感知理解上存在固有缺陷,无法直接处理图像分割等需像素级分析的任务。
    • 分割任意事物模型(SAM):虽在视觉提示驱动的图像分割领域有显著进展,但存在多掩码预测能力弱、类别特异性分割表现不足、无法整合所有分割任务于统一架构等问题。
    • 现有多模态大语言模型(MLLMs):多局限于生成文本输出,难以应对图像分割这类需像素级理解的视觉任务,且多数相关研究仍局限于特定任务,缺乏通用性。
  2. 研究目标:构建一个统一的多模态大语言模型框架X-SAM,突破现有模型限制,将分割范式从“分割任意事物”拓展到“任意分割”,实现对多种图像分割任务的统一处理。

二、核心创新点

在这里插入图片描述

  1. 统一分割框架:提出首个能整合所有图像分割任务的多模态大语言模型架构,将通用分割、指代分割、开放词汇分割等多种任务转化为标准化分割格式,支持文本查询与视觉查询两种输入类型。

  2. 新分割任务:视觉接地(VGD)分割:通过交互式视觉提示(如点、涂鸦、框、掩码)分割图像中所有实例对象,为MLLMs引入视觉接地模态,增强其像素级可解释性,且支持单图像与跨图像场景。

  3. 多阶段统一训练策略:设计三阶段训练流程,解决多源数据训练适配问题,具体包括:
    在这里插入图片描述

    • 分割器微调阶段:在COCO-Panoptic数据集上训练分割器,优化分割解码器以实现单次前向传播分割所有对象,损失函数为分类损失、掩码损失与骰子损失之和。
    • 对齐预训练阶段:在LLaVA-558K数据集上训练双投影器,使视觉特征与LLM的文本嵌入对齐,采用自回归损失函数。
    • 混合微调阶段:在混合数据集(含图像对话与多种分割数据集)上进行端到端训练,对话任务用自回归损失,分割任务结合自回归损失与分割损失。
  4. 双编码器与双投影器设计

    • 双编码器:图像编码器(采用SigLIP2-so400m)提取全局图像特征,助力图像理解;分割编码器(采用SAM-L)提取细粒度特征,支撑精准分割。
    • 双投影器:通过MLP投影器将图像特征与处理后的分割特征(经像素洗牌操作降维)映射到语言嵌入空间,再与文本嵌入拼接输入LLM。

三、模型架构

在这里插入图片描述

X-SAM整体架构包含五大核心模块,各模块协同实现多模态输入处理与统一分割输出,具体结构如下:

  1. 双编码器
    • 图像编码器:采用SigLIP2-so400m,提取全局图像特征(Z_v),用于整体图像理解。
    • 分割编码器:采用SAM-L,提取细粒度图像特征(Z_s),为精准分割提供细节支撑。
  2. 双投影器
    • 对分割编码器输出的大尺寸特征,先通过像素洗牌操作降维,再经MLP投影器(w_s)映射到语言嵌入空间(H_s)。
    • 图像编码器特征直接经MLP投影器(w_i)映射到语言嵌入空间(H_v),最终拼接(H_v)、(H_s)与文本嵌入输入LLM。
  3. 分割连接器:通过像素洗牌操作实现特征的尺度转换,将分割编码器的单尺度(1/16)特征转化为多尺度(1/8、1/16、1/32)特征,为分割解码器提供丰富的尺度信息。
  4. 分割解码器:替换SAM原解码器,借鉴Mask2Former设计,结合LLM输出的令牌嵌入、多尺度分割特征与掩码查询令牌,预测掩码及类别概率,同时引入潜在背景嵌入统一处理所有分割任务的“忽略”类别。
  5. 大语言模型(LLM):采用Phi-3-mini-4k-instruct,负责处理文本指令与视觉特征的融合理解,生成语言响应并输出令牌触发分割结果。

四、实验结果

  1. 实验设置
    • 数据集:涵盖分割器微调(COCO-Panoptic)、对齐预训练(LLaVA-558K)、混合微调(LLaVA-1.5、COCO-Panoptic、COCO-VGD等)三大类,共涉及超20个分割数据集,其中COCO-VGD为新增VGD分割数据集。
    • 评估指标:通用分割与开放词汇分割用PQ、mIoU、mAP;指代分割与推理分割用cIoU、gIoU;GCG分割用METEOR、CIDEr、AP50、mIoU;VGD分割用AP、AP50等。
    • 实现细节:基于XTuner代码库,使用16张A100 GPU训练,三阶段训练的 batch size、学习率、训练轮次等参数分别优化(如分割器微调batch size=64,学习率1e-5~1e-4,共36轮)。
  2. 核心性能表现:X-SAM在7类分割任务中均实现当前最优(SOTA)性能,部分关键结果如下:
    • 指代分割:在RefCOCO、RefCOCO+、RefCOCOg验证集上,分别比PSALM高1.5%、5.1%、10.0% cIoU;比Sa2VA-8B(更大模型)分别高3.5%、1.8%、5.1% cIoU。
    • GCG分割:Val集上METEOR 15.4、CIDEr 46.3、AP50 33.2、mIoU 69.4,比GLaMM高0.2% METEOR、3.2% CIDEr,比OMG-LLaVA高3.3% AP、3.9% mIoU。
    • VGD分割:在点、涂鸦、框、掩码四种视觉提示下,AP分别达47.9、48.7、49.5、49.7,远超PSALM(最高仅5.8 AP50)。
    • 开放词汇分割:A150-OV数据集上PQ 20.9、AP 16.2、mIoU 28.8,优于ODISE(PQ 22.6但AP 14.4)与PSALM(PQ 13.7)。
  3. 消融实验验证
    • 混合微调:使A150-OV的AP提升6.0%、Reason-Val的gIoU提升8.9%,证明其对跨任务泛化能力的增强作用。
    • 双编码器:采用SAM分割编码器时,GCG-Val的mIoU提升4.6%、COCO-VGD的AP提升7.2%,优于Swin编码器。
    • 多阶段训练:加入分割器微调(S1)使COCO-Pan的PQ提升9.3%,加入对齐预训练(S2)使对话任务准确率提升2.1%。
    • 数据集平衡重采样:当超参数t=0.1时,推理分割gIoU从44.1%提升至56.6%,整体性能最优。

五、局限性与未来工作

  1. 局限性
    • 分割数据集与对话数据集的联合训练会对部分分割任务(如COCO-Pan)性能产生轻微负面影响(PQ下降0.8%),需优化数据集混合策略。
    • 模型在部分任务(如推理分割的cIoU)上未达绝对最优,统一模型的任务适配性仍需提升。
  2. 未来方向
    • 整合SAM2模型,将X-SAM的应用场景从图像分割拓展到视频分割。
    • 把VGD分割任务延伸至视频领域,引入视觉接地的时序信息,开发视频级视觉接地分割任务。

六、其他

  • 代码开源:https://github.com/wanghao9610/X-SAM
  • 论文地址:https://arxiv.org/abs/2508.04655
  • 模型参数:总参数量约5B,兼顾性能与部署效率。
  • 适用场景:涵盖通用分割、指代分割、推理分割、GCG分割、交互式分割、VGD分割等,可应用于图像编辑、视觉问答、场景理解等计算机视觉领域。

在这里插入图片描述

好了,这篇文章就介绍到这里,喜欢的小伙伴感谢给点个赞和关注,更多精彩内容持续更新~~
关于本篇文章大家有任何建议或意见,欢迎在评论区留言交流!

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐