医学图像分割新突破:VM-UNet横空出世
VM-UNet是一种针对医学图像分割优化的创新模型。针对传统UNet在精度、效率和鲁棒性上的不足,VM-UNet通过多项改进实现突破性平衡:采用Ghost-Patch Stem缩减参数,引入并行视觉状态空间模块(PVM)提高计算效率,使用可变形SS2D增强几何适应性,设计双分支注意力桥(CAB+SAB)抑制跳跃噪声,并优化解码器实现高效量化。这些改进使模型在小目标分割、边缘定位和实时处理方面表现优
·
论文链接:VM-UNet
提出原因
医学图像分割在临床诊断和手术规划里特别关键,像用 CT 找肺部结节,或者通过 MRI 画脑部肿瘤轮廓,分割得准不准,直接关系到医生怎么给病人看病、做手术。虽然 UNet 和它的改进版本一直是这方面的主流模型,但在实际用的时候,还是会碰到让人头疼的问题:
- 精度瓶颈:像是微小结节、早期肿瘤这类小目标,还有图像边缘部分,分割出来总是糊糊的,定位精准度不太够。
- 效率难题:网络层数太深,参数太多,推理起来速度特别慢,根本达不到临床快速出结果的要求。
- 鲁棒性不足:医学图像里的噪声、灰度不均匀、伪影这些干扰因素,很容易影响分割效果,模型适应性比较差。
VM-UNet(Variational Multi-scale UNet)作为针对医学图像分割优化的创新模型,正是为解决这些痛点而生。它基于经典 UNet 架构,通过引入变分推断、多尺度特征融合与轻量化设计,在精度、速度、鲁棒性三者间实现了突破性平衡,成为近年来医学影像 AI 领域的热门研究方向。
网络结构

VSS block
VSS-Block(Visual State Space Block,视觉状态空间模块)是 VMamba 视觉骨干网络的核心组件,同时也是 VM - UNet 等医学图像分割模型的核心特征提取单元
相比传统的UNet的改进
- Ghost-Patch Stem
原始 Patch Embedding 采用 4×4 卷积一次性将通道升到 C₀=96,参数量达 4×4×3×96≈4.6 k。我们将其替换为 Ghost 模块:先以 4×4 卷积输出 8 个本征通道,再通过分组 3×3 深度卷积生成剩余 88 个“廉价”通道,最后拼接恢复 96 维。该操作在保留特征冗余性的同时,将 stem 参数量缩减 12×,并降低 18 % 的初始内存占用。 - Parallel Vision Mamba Layer (PVM)
标准 VSS Block 沿 4 个方向执行完整 2-D 扫描,序列长度 L=H×W,计算与显存随空间分辨率二次增长。PVM 把输入特征在通道维度均分为 g=4 组,每组独立送入轻量化 VSS;由于单组通道数降为 1/g,SS2D 的序列长度同步缩短 4×,且 4 条扫描流可并行置于不同 CUDA Stream。实验表明,PVM 在保持全局感受野的前提下,显存占用下降 35 %,推理速度提升 1.6×。 - Deformable SS2D
传统 SS2D 采用固定方向的一维展开,对几何形变敏感。我们在扫描前引入可变形卷积:用 3×3 深度卷积预测 2-D 偏移场,使特征在展开前实现空间重采样;随后再执行标准 S6 选择性扫描。该策略让状态空间模型能够自适应跟踪目标轮廓,在 ISIC 与 BUSI 小目标子集上 Dice 分别提升 2.1 % 与 1.8 %。 - CAB+SAB Skip Bridge
为抑制跳跃连接中的冗余噪声,我们设计双分支注意力桥:
通道注意力桥 (CAB) 采用 5×5 深度卷积捕获局部上下文,再接 ECA 模块完成跨通道交互;
空间注意力桥 (SAB) 并联 3×3、扩张率=3 和 5 的空洞卷积,生成多尺度空间权重图。
两分支输出与原始跳跃特征逐元素相加,在几乎不增加参数的情况下,边缘定位误差降低 0.7 pixel。 - 1×1 Shared Segmentation Head
原始解码器使用 3×3 卷积堆叠,不利于 INT8 量化。我们将所有解码卷积替换为 1×1,并把分类头权重与最后一级特征投影共享。该设计使得整张网络可在 TensorRT 中统一做权重-激活联合量化,INT8 模式下精度损失 < 0.3 %,移动端帧率再提升 1.9×。
使用场景
- 皮肤病变快速筛查
割色素痣与可疑病灶,适合基层医院或远程义诊场景。 - 自动驾驶道路分割
将 VM-UNet 系列作为轻量级语义分割模块,与检测网络协同,完成路面、行人、车辆像素级标注。
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)