医学图像分割新突破：VM-UNet横空出世

VM-UNet是一种针对医学图像分割优化的创新模型。针对传统UNet在精度、效率和鲁棒性上的不足，VM-UNet通过多项改进实现突破性平衡：采用Ghost-Patch Stem缩减参数，引入并行视觉状态空间模块(PVM)提高计算效率，使用可变形SS2D增强几何适应性，设计双分支注意力桥(CAB+SAB)抑制跳跃噪声，并优化解码器实现高效量化。这些改进使模型在小目标分割、边缘定位和实时处理方面表现优

Dzz.

903人浏览 · 2025-11-20 08:32:58

Dzz. · 2025-11-20 08:32:58 发布

论文链接：VM-UNet

提出原因

医学图像分割在临床诊断和手术规划里特别关键，像用 CT 找肺部结节，或者通过 MRI 画脑部肿瘤轮廓，分割得准不准，直接关系到医生怎么给病人看病、做手术。虽然 UNet 和它的改进版本一直是这方面的主流模型，但在实际用的时候，还是会碰到让人头疼的问题：

精度瓶颈：像是微小结节、早期肿瘤这类小目标，还有图像边缘部分，分割出来总是糊糊的，定位精准度不太够。
效率难题：网络层数太深，参数太多，推理起来速度特别慢，根本达不到临床快速出结果的要求。
鲁棒性不足：医学图像里的噪声、灰度不均匀、伪影这些干扰因素，很容易影响分割效果，模型适应性比较差。

VM-UNet（Variational Multi-scale UNet）作为针对医学图像分割优化的创新模型，正是为解决这些痛点而生。它基于经典 UNet 架构，通过引入变分推断、多尺度特征融合与轻量化设计，在精度、速度、鲁棒性三者间实现了突破性平衡，成为近年来医学影像 AI 领域的热门研究方向。

网络结构

在这里插入图片描述

VSS block

VSS-Block（Visual State Space Block，视觉状态空间模块）是 VMamba 视觉骨干网络的核心组件，同时也是 VM - UNet 等医学图像分割模型的核心特征提取单元在这里插入图片描述

相比传统的UNet的改进

Ghost-Patch Stem
原始 Patch Embedding 采用 4×4 卷积一次性将通道升到 C₀=96，参数量达 4×4×3×96≈4.6 k。我们将其替换为 Ghost 模块：先以 4×4 卷积输出 8 个本征通道，再通过分组 3×3 深度卷积生成剩余 88 个“廉价”通道，最后拼接恢复 96 维。该操作在保留特征冗余性的同时，将 stem 参数量缩减 12×，并降低 18 % 的初始内存占用。
Parallel Vision Mamba Layer (PVM)
标准 VSS Block 沿 4 个方向执行完整 2-D 扫描，序列长度 L=H×W，计算与显存随空间分辨率二次增长。PVM 把输入特征在通道维度均分为 g=4 组，每组独立送入轻量化 VSS；由于单组通道数降为 1/g，SS2D 的序列长度同步缩短 4×，且 4 条扫描流可并行置于不同 CUDA Stream。实验表明，PVM 在保持全局感受野的前提下，显存占用下降 35 %，推理速度提升 1.6×。
Deformable SS2D
传统 SS2D 采用固定方向的一维展开，对几何形变敏感。我们在扫描前引入可变形卷积：用 3×3 深度卷积预测 2-D 偏移场，使特征在展开前实现空间重采样；随后再执行标准 S6 选择性扫描。该策略让状态空间模型能够自适应跟踪目标轮廓，在 ISIC 与 BUSI 小目标子集上 Dice 分别提升 2.1 % 与 1.8 %。
CAB+SAB Skip Bridge
为抑制跳跃连接中的冗余噪声，我们设计双分支注意力桥：
通道注意力桥 (CAB) 采用 5×5 深度卷积捕获局部上下文，再接 ECA 模块完成跨通道交互；
空间注意力桥 (SAB) 并联 3×3、扩张率=3 和 5 的空洞卷积，生成多尺度空间权重图。
两分支输出与原始跳跃特征逐元素相加，在几乎不增加参数的情况下，边缘定位误差降低 0.7 pixel。
1×1 Shared Segmentation Head
原始解码器使用 3×3 卷积堆叠，不利于 INT8 量化。我们将所有解码卷积替换为 1×1，并把分类头权重与最后一级特征投影共享。该设计使得整张网络可在 TensorRT 中统一做权重-激活联合量化，INT8 模式下精度损失 < 0.3 %，移动端帧率再提升 1.9×。

使用场景

皮肤病变快速筛查
割色素痣与可疑病灶，适合基层医院或远程义诊场景。
自动驾驶道路分割
将 VM-UNet 系列作为轻量级语义分割模块，与检测网络协同，完成路面、行人、车辆像素级标注。

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla