论文链接:VM-UNet

提出原因

医学图像分割在临床诊断和手术规划里特别关键,像用 CT 找肺部结节,或者通过 MRI 画脑部肿瘤轮廓,分割得准不准,直接关系到医生怎么给病人看病、做手术。虽然 UNet 和它的改进版本一直是这方面的主流模型,但在实际用的时候,还是会碰到让人头疼的问题:​

  • 精度瓶颈:像是微小结节、早期肿瘤这类小目标,还有图像边缘部分,分割出来总是糊糊的,定位精准度不太够。
  • 效率难题:网络层数太深,参数太多,推理起来速度特别慢,根本达不到临床快速出结果的要求。
  • 鲁棒性不足:医学图像里的噪声、灰度不均匀、伪影这些干扰因素,很容易影响分割效果,模型适应性比较差。

VM-UNet(Variational Multi-scale UNet)作为针对医学图像分割优化的创新模型,正是为解决这些痛点而生。它基于经典 UNet 架构,通过引入变分推断、多尺度特征融合与轻量化设计,在精度、速度、鲁棒性三者间实现了突破性平衡,成为近年来医学影像 AI 领域的热门研究方向。

网络结构

在这里插入图片描述

VSS block

VSS-Block(Visual State Space Block,视觉状态空间模块)是 VMamba 视觉骨干网络的核心组件,同时也是 VM - UNet 等医学图像分割模型的核心特征提取单元在这里插入图片描述

相比传统的UNet的改进

  • Ghost-Patch Stem
    原始 Patch Embedding 采用 4×4 卷积一次性将通道升到 C₀=96,参数量达 4×4×3×96≈4.6 k。我们将其替换为 Ghost 模块:先以 4×4 卷积输出 8 个本征通道,再通过分组 3×3 深度卷积生成剩余 88 个“廉价”通道,最后拼接恢复 96 维。该操作在保留特征冗余性的同时,将 stem 参数量缩减 12×,并降低 18 % 的初始内存占用。
  • Parallel Vision Mamba Layer (PVM)
    标准 VSS Block 沿 4 个方向执行完整 2-D 扫描,序列长度 L=H×W,计算与显存随空间分辨率二次增长。PVM 把输入特征在通道维度均分为 g=4 组,每组独立送入轻量化 VSS;由于单组通道数降为 1/g,SS2D 的序列长度同步缩短 4×,且 4 条扫描流可并行置于不同 CUDA Stream。实验表明,PVM 在保持全局感受野的前提下,显存占用下降 35 %,推理速度提升 1.6×。
  • Deformable SS2D
    传统 SS2D 采用固定方向的一维展开,对几何形变敏感。我们在扫描前引入可变形卷积:用 3×3 深度卷积预测 2-D 偏移场,使特征在展开前实现空间重采样;随后再执行标准 S6 选择性扫描。该策略让状态空间模型能够自适应跟踪目标轮廓,在 ISIC 与 BUSI 小目标子集上 Dice 分别提升 2.1 % 与 1.8 %。
  • CAB+SAB Skip Bridge
    为抑制跳跃连接中的冗余噪声,我们设计双分支注意力桥:
    通道注意力桥 (CAB) 采用 5×5 深度卷积捕获局部上下文,再接 ECA 模块完成跨通道交互;
    空间注意力桥 (SAB) 并联 3×3、扩张率=3 和 5 的空洞卷积,生成多尺度空间权重图。
    两分支输出与原始跳跃特征逐元素相加,在几乎不增加参数的情况下,边缘定位误差降低 0.7 pixel。
  • 1×1 Shared Segmentation Head
    原始解码器使用 3×3 卷积堆叠,不利于 INT8 量化。我们将所有解码卷积替换为 1×1,并把分类头权重与最后一级特征投影共享。该设计使得整张网络可在 TensorRT 中统一做权重-激活联合量化,INT8 模式下精度损失 < 0.3 %,移动端帧率再提升 1.9×。

使用场景

  1. 皮肤病变快速筛查
    割色素痣与可疑病灶,适合基层医院或远程义诊场景。
  2. 自动驾驶道路分割
    将 VM-UNet 系列作为轻量级语义分割模块,与检测网络协同,完成路面、行人、车辆像素级标注。
Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐