点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【顶会/顶刊】投稿交流群

添加微信号:CVer2233,小助手拉你进群!

扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料及应用!发论文/搞科研/涨薪,强烈推荐!

图片

最近,由

上海交通大学、华为诺亚方舟实验室等机构一众研究者们共同提出的 MURE (Multimodal Reasoning Edit) 框架,靠“图文交织思维链”漂亮地解决了上述痛点,实现了“精准改图”和“逻辑稳定”**的突破!目前已放出 arxiv (https://arxiv.org/abs/2510.08157),后续还会更新代码和模型(https://github.com/zhentao-zou/MURE)。

一起来看看这篇论文的基本信息: 

核心突破:图文交织思维链 (Interleaved CoT)

MURE 框架最核心的突破点在于其“图文交织思维链”(Interleaved CoT)。这一机制是 MURE 解决“物理逻辑错乱”和“不规则区域处理难”两大痛点的根本。

传统的AI图像编辑模型常依赖于纯文本思维链(Purely Textual CoT)来分析指令。当任务复杂时,纯文本推理缺乏对像素级的直接控制,如同一个只知道理论,却从不下笔的画师,容易导致编辑逻辑出错。例如,在移除物体时留下镜面倒影等物理逻辑不一致的问题,就是因为模型在推理时忽略了视觉空间中的依赖关系。

MURE 则通过将推理过程升级为文字分析和视觉线索交替驱动的原生多模态流程,从根本上解决了这一问题。 

 

·编辑的中间过程: MURE 不仅有“文字思考”,更重要的是它生成了视觉的中间产物。这与传统 LLM 在文本空间进行“自我反思”不同,MURE 的每一步思考都伴随着一个具体的、可操作的视觉提示,从而将复杂的视觉任务拆解为一系列的**“视觉操作”**序列。例如在“电视换蜥蜴”的复杂任务中:

1.文字分析(理性): “定位电视和镜面倒影,准备一并擦除,同时保留墙面纹理。”

2.视觉提示(执行): 生成一个精确的 Mask 来圈定需要删除的区域。这步直接干预像素级操作,强制性地将电视和它的镜面倒影都纳入删除范围,保证了编辑的物理一致性。

3.文字描述(指导): “生成一个与周围环境光影匹配的绿色蜥蜴。”

4.视觉预览(验证): 生成最终预览图。

·高可控性与精度: 这种机制使得每一步的推理都是可观察、可回溯的。对于弯曲树枝、毛绒玩具等不规则区域,MURE通过生成精确的分割 Mask作为视觉中间件,以像素级精度锁定编辑范围,彻底告别“开盲盒”式的改图体验,用户甚至可以中途调整 Mask,实现对编辑过程的深度介入。

MMDC 推理范式:杜绝半成品,确保最优路径

为了解决AI改图过程中常出现的**“走偏”和“模糊半成品”问题,MURE还提出了“多模态深度置信(MMDC)推理范式”**。

它不再是传统模型那种一步错、步步错的单路径生成。相反,MURE 在每个关键的视觉生成步骤,会先探索多个推理路径(例如,针对擦除指令,会生成“完整擦除”、“保留边缘细节”等多种 Mask 方案)。随后,它使用 Qwen2.5-VL-7B 作为奖励模型,像一位经验丰富的“仲裁者”,从**“指令贴合度”和“图像质量”**两个维度对所有路径进行深度评分。最终,MURE 会筛选出得分最优的路径继续推进,大大提升了编辑过程的稳定性和最终图像的质量。

筑牢训练基础:首份 14K 图文交织推理编辑数据集

为了训练这种复杂的交织推理能力,MURE 构建了首份专门用于图文交织推理的 CoT-Edit-14K 数据集。该数据集包含 14K 条高质量编辑示例,覆盖 10 类核心任务。与其他数据集仅提供“指令+结果”不同,CoT-Edit-14K 的每条数据都包含完整的**“文字思考链 + 视觉中间产物”**,详尽记录了模型在每一步如何思考、如何生成 Mask、如何预览,为模型训练和领域研究提供了关键且独特的基准。

实测碾压 SOTA:细粒度需求全拿捏

MURE 在三大主流改图 benchmark 上的实测数据非常亮眼,全面超越现有 SOTA 模型:

·高语义贴合度: 在 MagicBrush 测试集上,CLIP-I 分数(越高表示语义贴合度越好)高达 0.943,比 BAGEL 高 2 个百分点。

·高画质与原图一致性: 在 Emu 编辑数据集上,DINO 分数 0.897,兼顾了语义贴合与原图的视觉一致性。

·精准推理场景: 在 SmartEdit 的“推理场景”测试中,PSNR(画质越高越好)达 28.69,比 13B 参数的 SmartEdit 高 3 个点。这证明了 MURE 能够完美满足“更换天空时保留物体阴影”、“修改物体颜色时保持纹理”这类高难度、细粒度的复杂编辑需求。

若你做文字驱动图像编辑,或被AI改图的“不精准、不稳定”困扰,可以关注一下 MURE——其图文交织思维链不仅是当前改图任务的“最优解”之一,更可能为未来视频编辑、3D 编辑等多模态场景提供新方向。

本文系学术转载,如有侵权,请联系CVer小助手删文

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

ICCV 2025 论文和代码下载

在CVer公众号后台回复:ICCV2025,即可下载ICCV 2025论文和代码开源的论文合

CVPR 2025 论文和代码下载

在CVer公众号后台回复:CVPR2025,即可下载CVPR 2025论文和代码开源的论文合集

CV垂直方向和论文投稿交流群成立

扫描下方二维码,或者添加微信号:CVer2233,即可添加CVer小助手微信,便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者论文投稿+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer2233,进交流群
CVer计算机视觉(知识星球)人数破万!如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料,一定要扫描下方二维码,加入CVer知识星球!最强助力你的科研和工作!

▲扫码加入星球学习

▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐